hadoop - 如何使用 apache Nutch 2.3 每天从网络上抓取 100 万个文档

标签 hadoop web-scraping web-crawler hbase nutch

我已经用 hadoop 1.2.1 和 hbase 0.94.x 配置了 apache nutch 2.3。我必须爬网几个星期。大约需要爬取 100 万个文档。我有四个节点的 hadoop 集群。在此配置之前，我在单机上设置了nutch并爬取了一些文档。但是抓取速度不超过50k到80k。 nutch 应该如何配置才能每天抓取所需数量的文档。

最佳答案

一般来说，你可以设置更大的TopN，也可以改变<name>http.content.limit</name>在 nutch-site.xml 中设置为 -1。

希望对您有所帮助，

乐国岛

关于hadoop - 如何使用 apache Nutch 2.3 每天从网络上抓取 100 万个文档，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34014157/

上一篇：java - 从cli启动并杀死hadoop任务

下一篇：hadoop - 如何编写 MapReduce Prog，其中 Reducers 的输出转到单个 Reducer

相关文章：

hadoop - 在 map reduce 作业之间传递变量

hadoop - 在 Ubuntu 上安装 Hadoop

Python - 将文本结果抓取到列表中

java - 设置 crawler4j 的指南

apache-spark - 如何使用 APPLICATION ID 提交 YARN 作业

javascript - 与 puppeteer 师一起刮 table

python - 我希望 Scrapy 遍历每个项目一次

javascript - 在 python 中使用 selenium，如何从 HTML 中获取在 JS <script> 元素中声明的 Var

python - 碎片或 Selenium : Can we get current html page after clicking a button?

java - Java:在Apache Hadoop中找不到PageRank算法的类