在设置数据系统时,我试图获得一些建议。我想设置一个用于网络爬网的系统。它会定期抓取数百/千个站点。
我知道Nutch并曾经使用Nutch,但是我想知道其他人是否知道比Nutch更好的爬虫。
我还将Elasticsearch用作索引器,并且很难使Nutch与较新版本的ES一起使用。
最佳答案
您可以看看StormCrawler是基于Apache Storm的,它不仅是功能全面的搜寻器,而且还专注于近实时搜寻。 ES通常会非常更新,在撰写本文时,它支持ES v6.1.1(https://github.com/DigitalPebble/storm-crawler/blob/master/external/elasticsearch/pom.xml#L20),因此您可以使用它。请记住,这是与Nutch不同的方法和技术,尽管它使用了Apache Nutch背后的一些想法。
另外,在https://github.com/BruceDone/awesome-crawler中,您可以找到许多用多种不同语言编写的搜寻器的列表。
关于elasticsearch - Nutch以外的其他与Elasticsearch合作的抓取工具,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48564305/