hadoop - 如何在分布式模式下运行Apache Nut

标签 hadoop web-crawler nutch

我正在使用Apache Nutch 2.3。我有一个由4个Hadoop(1.2.1)节点组成的小型集群。我正在运行一个Crawler实例。每天大约爬行3万至5万页。我每天必须抓取更多页面(假定值约为100万)。我曾尝试过与Nutch的常见问题解答不同的问题。但是爬网的文档无法增加。我想我应该在完全分布式模式下运行Nutch(我希望Nutch的完全分布式模式正在运行多个实例)。

我的问题有什么解决方案?

最佳答案

通常,应增加topN值并将<name>http.content.limit</name>(在nutch-site.xml中)的值设置为 -1

关于hadoop - 如何在分布式模式下运行Apache Nut,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32753538/

相关文章:

solr - Nutch 和 Solr 入门 : where's Solr's conf/directory?

java - 是否可以在 solr 中存储完整的 html 页面源代码?

hadoop - 将数据导入Hadoop

bash - ssh 函数上的 bash 脚本中的意外行为

java - 如何将一个html网站的一部分集成到java程序中?

python - 使用 python 生成站点地图

logging - 在 hadoop 上运行 nutch,nutch 日志在哪里?

java - 使用 Maven 构建 Hadoop 1.2.1

hadoop - Pyspark 操作提交时 oozie 失败 : '[Errno 2] No such file or directory'

python - 使用 Python 抓取 html 内容中的内容