hadoop - 在 Hortownworks 或 YARN 上集成 Nutch

标签 hadoop web-crawler nutch hortonworks-data-platform

我正在尝试抓取网络。最好用 Nutch。 如果开箱即用的 Hortownworks 支持 Nutch,则没有找到引用。

有没有专门用 Hortonworks HDP 集成 Nutch on YARN 的? 或者有人尝试在 Hadoop 2.x (YARN) 上集成 Nutch?

提前致谢。

最佳答案

HDP 2.3 不支持开箱即用的 Nutch(HDP 网站上有一张图表显示支持的服务:HDP2.3 What's New)。但是它确实支持 Nutch 所依赖的服务。可以定义自定义 Ambari 服务并将其添加到 HDP 2.3 堆栈定义中以启用对 Nutch 的支持。

关于hadoop - 在 Hortownworks 或 YARN 上集成 Nutch,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29007040/

相关文章:

java - Servlet 执行 Hadoop MapReduce 作业并显示结果

java - 如何在 Windows 上的 eclipse 中运行 nutch 1.9?

hadoop - 如何在伪分布式安装的Hadoop中运行Nutch

java - 根据 Nutch 中的条件获取后拒绝 url

hadoop - 安排每周 Oozie

hadoop - 垃圾检查点间隔如何在 hadoop 中工作?为什么需要 checkpoint_intereval?

java - 如何将第三方 jar 添加到 mapreduce 作业?

asp.net-mvc - 保护网站内容免受爬虫的侵害

python - 需要指导将 python 脚本中的数据插入 MySQL 数据库

Java 爬虫库 - 使用目录列表解析器递归 HTTP 子树下载