nutch - 如何加快在 Nutch 中的爬行

标签 nutch web-crawler

我正在尝试开发一个应用程序，在该应用程序中，我将为 Nutch 中的 urls 文件提供一组受限的 url。我能够抓取这些 url 并通过从段中读取数据来获取它们的内容。

我通过提供深度 1 进行爬网，因为我不关心网页中的外链或内链。我只需要 urls 文件中该网页的内容。

但是执行此爬网需要时间。所以，建议我一种减少爬行时间并提高爬行速度的方法。我也不需要索引，因为我不关心搜索部分。

有没有人有关于如何加快爬行速度的建议？

最佳答案

获得速度的主要事情是配置 nutch-site.xml

<property>
<name>fetcher.threads.per.queue</name>
   <value>50</value>
   <description></description>
</property>

关于nutch - 如何加快在 Nutch 中的爬行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4871972/

上一篇：.net - WCF channel 故障状态是否有帮助？

下一篇：sql - 可以在 Oracle 的 SELECT 中执行自动编号序列吗？

java - 创建 HTable 时出错

hadoop - Apache Nutch 2.3.1，增加Reducer的内存

hadoop - 使用 Fair Scheduler 时，如何确保某些 hadoop 作业最终不会在同一个数据节点中运行？

coldfusion - BOT/SPIDER 是否会显示更多错误？

regex - Nutch 域正则表达式

python - 使用 Python 3.x 删除文本文件中的所有空格

seo - 当被拒绝的页面(机器人)仍在 sitemap.xml 中时会发生什么？

使用文本搜索查找所有可能结果的算法

web-crawler - 使用 php 在 Storm 中进行非阻塞 HTTP 调用