elasticsearch - Nutch以外的其他与Elasticsearch合作的抓取工具

标签 elasticsearch web-crawler nutch

在设置数据系统时,我试图获得一些建议。我想设置一个用于网络爬网的系统。它会定期抓取数百/千个站点。

我知道Nutch并曾经使用Nutch,但是我想知道其他人是否知道比Nutch更好的爬虫。

我还将Elasticsearch用作索引器,并且很难使Nutch与较新版本的ES一起使用。

最佳答案

您可以看看StormCrawler是基于Apache Storm的,它不仅是功能全面的搜寻器,而且还专注于近实时搜寻。 ES通常会非常更新,在撰写本文时,它支持ES v6.1.1(https://github.com/DigitalPebble/storm-crawler/blob/master/external/elasticsearch/pom.xml#L20),因此您可以使用它。请记住,这是与Nutch不同的方法和技术,尽管它使用了Apache Nutch背后的一些想法。

另外,在https://github.com/BruceDone/awesome-crawler中,您可以找到许多用多种不同语言编写的搜寻器的列表。

关于elasticsearch - Nutch以外的其他与Elasticsearch合作的抓取工具,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48564305/

相关文章:

elasticsearch - RestHighLevelClient 不能与 elasticsearch 7 BulkProcessor 一起使用。应该使用哪个客户端?

elasticsearch - 一个Logstash到具有某些字段的多个Elasticsearch索引

hadoop - 在hadoop模式下运行nutch时不执行nutch gora类

linux - 没有找到 Eclipse 的 Maven 插件

r - 如何在 R 中编写代码以进行网络爬取和抓取

regex - Nutch 域正则表达式

php - indices()->refresh() 是否等待完成?

Elasticsearch reindex api在复制后删除文档

php - 使用Simple HTML Dom的错误PHP网站爬虫类

python - Scrapy 响应与请求和响应 url 是不同的语言