elasticsearch - Nutch以外的其他与Elasticsearch合作的抓取工具

在设置数据系统时，我试图获得一些建议。我想设置一个用于网络爬网的系统。它会定期抓取数百/千个站点。

我知道Nutch并曾经使用Nutch，但是我想知道其他人是否知道比Nutch更好的爬虫。

我还将Elasticsearch用作索引器，并且很难使Nutch与较新版本的ES一起使用。

最佳答案

您可以看看StormCrawler是基于Apache Storm的，它不仅是功能全面的搜寻器，而且还专注于近实时搜寻。 ES通常会非常更新，在撰写本文时，它支持ES v6.1.1(https://github.com/DigitalPebble/storm-crawler/blob/master/external/elasticsearch/pom.xml#L20)，因此您可以使用它。请记住，这是与Nutch不同的方法和技术，尽管它使用了Apache Nutch背后的一些想法。

另外，在https://github.com/BruceDone/awesome-crawler中，您可以找到许多用多种不同语言编写的搜寻器的列表。

关于elasticsearch - Nutch以外的其他与Elasticsearch合作的抓取工具，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48564305/