elasticsearch - 匹配有效时,简单术语查询不适用于弹性

标签 elasticsearch elastic-stack

我在 Elastic 中有一个如下所示的 JSON 对象。

{
    "_source" : {
      "version" : 1,
      "object_id" : "f1dcae27-7a6f-4fea-b540-901c09b60a15",
      "object_name" : "testFileName_for_TestSweepAndPrune",
      "object_type" : "",
      "object_status" : "OBJ_DELETED",
      "u_attributes" : ""
    }

我这样的术语查询不起作用。

{
            "query": {
                "term": {
                    "object_status": "OBJ_DELETED"
                }
            },
            "size": 10000

Wile 匹配查询在相同条件下工作正常。

{
            "query": {
                "match": {
                    "object_status": "OBJ_DELETED"
                }
            },
            "size": 10000

想知道这里会发生什么?我怎样才能使术语查询在这里适用于这种情况?

最佳答案

要理解为什么 term 查询没有像您预期的那样工作,我们需要检查 ElasticSearch 如何处理和保存数据,以及 matchterm 查询不同。

通常当您将一些文本保存到 ElasticSearch 时,它会先被分析然后被保存。分析由 analyzer 完成.有许多分析器,但如果您不指定任何分析器,则将使用默认的分析器。 Analyzer 处理文本,将其转换为标记数组并保存标记列表。对于每个特定的分析器,将文本拆分为标记的规则是不同的。

处理并保存文本后,您可以查询它。查询内容的方法有很多种,但在您的情况下,matchterm 之间的主要区别在于 matchfull text query并且 termterm level query .问题是,在全文搜索的情况下,您的查询字符串的分析方式与您正在查询的字段的分析方式相同。在术语级别查询中,不分析查询字符串。请务必注意。

现在让我们看看 "OBJ_DELETED" 是如何被 ElasticSearch 分析的。为此,我们可以像这样添加简单的文档:

curl -X PUT 'localhost:9200/testdata/object/1' -H 'Content-Type: application/json' -d '{ "object_status": "OBJ_DELETED"  }'

然后检查一切是否都在那里:

curl -X POST 'localhost:9200/testdata/_search?pretty'

应该产生这样的东西:

...
"hits" : {
"total" : 1,
"max_score" : 1.0,
"hits" : [
  {
    "_index" : "testdata",
    "_type" : "object",
    "_id" : "1",
    "_score" : 1.0,
    "_source" : {
      "object_status" : "OBJ_DELETED"
    }
  }
]

现在我们可以检查 "OBJ_DELETED" 是如何分析的:

curl -X POST 'localhost:9200/testdata/_analyze?pretty' -H 'Content-Type: application/json' -d '{ "text": "OBJ_DELETED"  }'

它输出:

{
  "tokens" : [
    {
      "token" : "obj_deleted",
      "start_offset" : 0,
      "end_offset" : 11,
      "type" : "<ALPHANUM>",
      "position" : 0
    }
  ]
}

如您所见,它仅将文本转换为小写并将其保存为一个标记。默认分析器就是这样做的。现在回到您的查询。 match 查询有效,因为查询值 "OBJ_DELETED" 也被转换为小写字母,因此 ElasticSearch 可以找到它。对于 term 查询,查询字符串未被处理,因此实际上您正在将 OBJ_DELETEDobj_deleted 进行比较,显然您没有得到任何结果。

最后一个问题:为什么 object_status.keyword 适用于 term 查询?

默认 ElasticSearch 为每个文本字段创建额外的映射。这是一种您可以使用的元数据。它还允许您以不同的方式处理相同的值。所以默认情况下每个 text字段具有名称 keyword 的附加映射,其类型为 keyword . keyword 字段不被分析(它们只能在需要时被规范化)。这意味着对于默认映射,它会保存您传递给 ElasticSearch 的确切值(在您的情况下为 OBJ_DELETED)。

关于elasticsearch - 匹配有效时,简单术语查询不适用于弹性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52412359/

相关文章:

elasticsearch - 提升更像这个elasticsearch

spring-boot - Elasticsearch 索引生命周期策略

elasticsearch - 如何在Elastic Search中结合过滤器编写嵌套查询?

Elasticsearch.service 不是原生服务,重定向到 systemd-sysv-install

elasticsearch - Elasticsearch 中的位数组使用和过滤

elasticsearch - 为什么聚合脚本在Elasticsearch中不起作用?

mapping - 定义文档提升字段

kibana - 如何使用 Filebeat 配置 FluentD (EFK)?

elasticsearch - MapperParsingException [无法解析[timestamp]];嵌套:IllegalArgumentException [无效格式:

elasticsearch - 如何轮转 ELK 日志?