elasticsearch - 如何根据主机将StormCrawler内容发送到多个Elasticsearch索引?

标签 elasticsearch stormcrawler

我目前有一个成功的StormCrawler实例,该实例可爬网约20个站点,并将内容索引到一个Elasticsearch索引。是否可以在ES中或通过StormCrawler将每个主机的内容发送到其自己的唯一内容索引?

最佳答案

出于好奇:您为什么需要这样做?每个主机只有一个索引似乎很浪费。如果要为特定主机提供结果,则可以基于诸如主机之类的字段过滤结果。
要回答您的问题,由于IndexerBolt仅连接到一个索引,因此目前尚无直接方法。您可以为每个需要的索引声明一个IndexerBolt,然后根据主机元数据的值向风扇添加一个自定义 bolt ,但这不是动态的,而且操作繁琐。不确定,可以使用pipelines in ES做到这一点。

关于elasticsearch - 如何根据主机将StormCrawler内容发送到多个Elasticsearch索引?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64548500/

相关文章:

ruby-on-rails - 如何在Rails上使用Tyre gem检查字段是否为空或为空

elasticsearch - "_doc"ElasticSearch 5.6 不接受映射类型名称

elasticsearch - Storm 搜寻器搜寻和索引

selenium - 如何在 Storm Crawler 中使用 Selenium 插件

elasticsearch - 如何使用Filebeat配置RabbitMQ

java - 如何使用Java客户端查询Elasticsearch中的多值数组字段?

elasticsearch - 即使在使用单例模式后也能看到许多打开的 Elasticsearch 连接

elasticsearch - 当之前的 "FETCHED"url 在 Web 服务器端被删除并且 StormCrawler 再次访问它时会发生什么?

maven - StormCrawler maven打包错误