elasticsearch - 查询〜10M文档索引和更多问题时,fielddata = true会产生什么影响

标签 elasticsearch aggregation

  • 我的索引约为1000万个文档。在每个文档中,我都有一个“文本”字段,在其中放置了一个字符串,最后,我希望汇总该字段中的所有术语。尝试这样做时,我只会得到整个字符串。
    我只听到有关使用fielddata = true的坏消息。
    对于如此大量的文档,就内存而言使用fielddata = true真的是一种不好的做法吗?
  • 在索引管道中使用分析器(仅在特定字段上设置分析器)与将分析器用作函数(在字符串上运行分析器,获取结果并将其放入)之间是否存在差异(就性能而言)一份文件)?
  • 同义词-我已经定义了一个同义词列表,我相信我已经知道答案了,但是我仍然会尝试一下,是否可以简单地更新这样的同义词列表?还是更新同义词列表后必须重新索引?
  • 最佳答案

  • 是的,内存不足是一个问题,但是您应该对其进行测试以找出需要多少内存。对于32G堆内存限制,10M不是太多文档。
  • 我不明白这个问题
  • 在创建索引时,您应该指向同义词单词的列表(文件)。但是之后您可以更新列表,而无需重新编制索引。当然不是简单的收缩(为此您应该重新索引)。 https://www.elastic.co/guide/en/elasticsearch/guide/current/synonyms-expand-or-contract.html
  • 关于elasticsearch - 查询〜10M文档索引和更多问题时,fielddata = true会产生什么影响,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54750050/

    相关文章:

    jdbc - 使用 jdbc river 在 elasticsearch 中索引数据时出现 "Too many open files"异常

    elasticsearch - 为什么Elasticsearch建议者返回多个相等的对象?

    Elasticsearch - 一般架构和 Elastic Cloud 问题

    sql - 复杂分组 - 设计/性能问题

    postgresql - 在聚合数据和记录级数据之间快速移动

    r - 使用 plyr : melt/cast vs. ddply 修复基于 reshape 的习惯

    python - 如何使用python在Elastic Search中索引路径/树?

    perl - 使用Perl动态修改ElasticSearch查询

    sql - 将列的所有唯一值转换为 GROUPY BY 查询返回列中的集合或数组

    css - 用于模块化大型 CSS 文件和聚合小型 CSS 文件的工具