我已经用 hadoop 1.2.1 和 hbase 0.94.x 配置了 apache nutch 2.3。我必须爬网几个星期。大约需要爬取 100 万个文档。我有四个节点的 hadoop 集群。在此配置之前,我在单机上设置了nutch并爬取了一些文档。但是抓取速度不超过50k到80k。 nutch 应该如何配置才能每天抓取所需数量的文档。
最佳答案
一般来说,你可以设置更大的TopN,也可以改变<name>http.content.limit</name>
在 nutch-site.xml 中设置为 -1。
希望对您有所帮助,
乐国岛
关于hadoop - 如何使用 apache Nutch 2.3 每天从网络上抓取 100 万个文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34014157/