nutch - 如何加快在 Nutch 中的爬行

标签 nutch web-crawler

我正在尝试开发一个应用程序,在该应用程序中,我将为 Nutch 中的 urls 文件提供一组受限的 url。我能够抓取这些 url 并通过从段中读取数据来获取它们的内容。

我通过提供深度 1 进行爬网,因为我不关心网页中的外链或内链。我只需要 urls 文件中该网页的内容。

但是执行此爬网需要时间。所以,建议我一种减少爬行时间并提高爬行速度的方法。我也不需要索引,因为我不关心搜索部分。

有没有人有关于如何加快爬行速度的建议?

最佳答案

获得速度的主要事情是配置 nutch-site.xml

<property>
<name>fetcher.threads.per.queue</name>
   <value>50</value>
   <description></description>
</property>

关于nutch - 如何加快在 Nutch 中的爬行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4871972/

相关文章:

hadoop - 如何使用 pig 脚本从网络爬网数据中提取特定数据(nutch)

java - 创建 HTable 时出错

hadoop - Apache Nutch 2.3.1,增加Reducer的内存

hadoop - 使用 Fair Scheduler 时,如何确保某些 hadoop 作业最终不会在同一个数据节点中运行?

coldfusion - BOT/SPIDER 是否会显示更多错误?

regex - Nutch 域正则表达式

python - 使用 Python 3.x 删除文本文件中的所有空格

seo - 当被拒绝的页面(机器人)仍在 sitemap.xml 中时会发生什么?

使用文本搜索查找所有可能结果的算法

web-crawler - 使用 php 在 Storm 中进行非阻塞 HTTP 调用