我目前有一个成功的StormCrawler实例,该实例可爬网约20个站点,并将内容索引到一个Elasticsearch索引。是否可以在ES中或通过StormCrawler将每个主机的内容发送到其自己的唯一内容索引?
最佳答案
出于好奇:您为什么需要这样做?每个主机只有一个索引似乎很浪费。如果要为特定主机提供结果,则可以基于诸如主机之类的字段过滤结果。
要回答您的问题,由于IndexerBolt仅连接到一个索引,因此目前尚无直接方法。您可以为每个需要的索引声明一个IndexerBolt,然后根据主机元数据的值向风扇添加一个自定义 bolt ,但这不是动态的,而且操作繁琐。不确定,可以使用pipelines in ES做到这一点。
关于elasticsearch - 如何根据主机将StormCrawler内容发送到多个Elasticsearch索引?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64548500/