我正在使用Apache Nutch 2.3。我有一个由4个Hadoop(1.2.1)节点组成的小型集群。我正在运行一个Crawler实例。每天大约爬行3万至5万页。我每天必须抓取更多页面(假定值约为100万)。我曾尝试过与Nutch的常见问题解答不同的问题。但是爬网的文档无法增加。我想我应该在完全分布式模式下运行Nutch(我希望Nutch的完全分布式模式正在运行多个实例)。
我的问题有什么解决方案?
最佳答案
通常,应增加topN值并将<name>http.content.limit</name>
(在nutch-site.xml中)的值设置为 -1
关于hadoop - 如何在分布式模式下运行Apache Nut,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32753538/