我正在尝试开发一个应用程序,在该应用程序中,我将为 Nutch 中的 urls 文件提供一组受限的 url。我能够抓取这些 url 并通过从段中读取数据来获取它们的内容。
我通过提供深度 1 进行爬网,因为我不关心网页中的外链或内链。我只需要 urls 文件中该网页的内容。
但是执行此爬网需要时间。所以,建议我一种减少爬行时间并提高爬行速度的方法。我也不需要索引,因为我不关心搜索部分。
有没有人有关于如何加快爬行速度的建议?
最佳答案
获得速度的主要事情是配置 nutch-site.xml
<property>
<name>fetcher.threads.per.queue</name>
<value>50</value>
<description></description>
</property>
关于nutch - 如何加快在 Nutch 中的爬行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4871972/