hadoop - 如何使用 apache Nutch 2.3 每天从网络上抓取 100 万个文档

标签 hadoop web-scraping web-crawler hbase nutch

我已经用 hadoop 1.2.1 和 hbase 0.94.x 配置了 apache nutch 2.3。我必须爬网几个星期。大约需要爬取 100 万个文档。我有四个节点的 hadoop 集群。在此配置之前,我在单机上设置了nutch并爬取了一些文档。但是抓取速度不超过50k到80k。 nutch 应该如何配置才能每天抓取所需数量的文档。

最佳答案

一般来说,你可以设置更大的TopN,也可以改变<name>http.content.limit</name>在 nutch-site.xml 中设置为 -1。

希望对您有所帮助,

乐国岛

关于hadoop - 如何使用 apache Nutch 2.3 每天从网络上抓取 100 万个文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34014157/

相关文章:

hadoop - 在 map reduce 作业之间传递变量

hadoop - 在 Ubuntu 上安装 Hadoop

Python - 将文本结果抓取到列表中

java - 设置 crawler4j 的指南

apache-spark - 如何使用 APPLICATION ID 提交 YARN 作业

javascript - 与 puppeteer 师一起刮 table

python - 我希望 Scrapy 遍历每个项目一次

javascript - 在 python 中使用 selenium,如何从 HTML 中获取在 JS &lt;script&gt; 元素中声明的 Var

python - 碎片或 Selenium : Can we get current html page after clicking a button?

java - Java:在Apache Hadoop中找不到PageRank算法的类