elasticsearch - 查询〜10M文档索引和更多问题时，fielddata = true会产生什么影响

标签 elasticsearch aggregation

我的索引约为1000万个文档。在每个文档中，我都有一个“文本”字段，在其中放置了一个字符串，最后，我希望汇总该字段中的所有术语。尝试这样做时，我只会得到整个字符串。
我只听到有关使用fielddata = true的坏消息。
对于如此大量的文档，就内存而言使用fielddata = true真的是一种不好的做法吗？

在索引管道中使用分析器(仅在特定字段上设置分析器)与将分析器用作函数(在字符串上运行分析器，获取结果并将其放入)之间是否存在差异(就性能而言)一份文件)？

同义词-我已经定义了一个同义词列表，我相信我已经知道答案了，但是我仍然会尝试一下，是否可以简单地更新这样的同义词列表？还是更新同义词列表后必须重新索引？

最佳答案

是的，内存不足是一个问题，但是您应该对其进行测试以找出需要多少内存。对于32G堆内存限制，10M不是太多文档。

我不明白这个问题

在创建索引时，您应该指向同义词单词的列表(文件)。但是之后您可以更新列表，而无需重新编制索引。当然不是简单的收缩(为此您应该重新索引)。 https://www.elastic.co/guide/en/elasticsearch/guide/current/synonyms-expand-or-contract.html

关于elasticsearch - 查询〜10M文档索引和更多问题时，fielddata = true会产生什么影响，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54750050/

上一篇：elasticsearch - Filebeat 多行过滤器不起作用？

下一篇：elasticsearch - 防止字段的相同值的Elasticsearch查询彼此相邻出现

elasticsearch - 为什么Elasticsearch建议者返回多个相等的对象？

Elasticsearch - 一般架构和 Elastic Cloud 问题

sql - 复杂分组 - 设计/性能问题

postgresql - 在聚合数据和记录级数据之间快速移动

r - 使用 plyr : melt/cast vs. ddply 修复基于 reshape 的习惯

python - 如何使用python在Elastic Search中索引路径/树？

perl - 使用Perl动态修改ElasticSearch查询

sql - 将列的所有唯一值转换为 GROUPY BY 查询返回列中的集合或数组

css - 用于模块化大型 CSS 文件和聚合小型 CSS 文件的工具