我正在学习Elastic Search,因此请原谅我这个入门问题。
场景是我们有多个数据生产者,这些生产者会将数据发送到AWS Kinesis firehose,后者已配置为将其交付给AWS Elastic search。
可能有多个数据生成者根据发生的不同编辑将相同的数据发布到Kinesis防火墙。
由于Kinesis Firehose缓冲了请求,然后将其批量传递给ES,因此批量请求可能会对同一文档进行多次编辑。
如何确保仅处理最新文档?
注意,所有文档都有一个timestamp字段,表示该字段的最后修改时间。
最佳答案
否。Elasticsearch没有选项来验证文档重复项。不过,您可以通过许多其他方式来实现这一目标。请参阅下面的链接以获取更多详细信息
https://www.elastic.co/blog/how-to-find-and-remove-duplicate-documents-in-elasticsearch
https://www.elastic.co/blog/efficient-duplicate-prevention-for-event-based-data-in-elasticsearch
关于elasticsearch - 如果批量请求两次包含相同文档的不同属性, Elasticsearch 可以拒绝请求吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58050086/