elasticsearch - 为什么我的Elasticsearch多重匹配查询仅查找前缀？

我正在尝试编写Elasticsearch多重匹配查询(使用Java API)以创建“按类型搜索”程序。该查询将应用于两个字段title和description，它们被分析为ngrams。

我的问题是，Elasticsearch似乎尝试像我的查询一样仅查找从到的单词。例如，如果我搜索“nut”，则它与具有“nut”，“nuts”，“Nutella”等特征的文档匹配，但是与具有“walnut”特征的文档不匹配，因此应该与匹配。

这是我的设置:

{
    "index": {
        "analysis": {
            "analyzer": {
                "edgeNGramAnalyzer": {
                    "tokenizer": "edgeTokenizer",
                    "filter": [
                        "word_delimiter",
                        "lowercase",
                        "unique"
                    ]
                }
            },
            "tokenizer": {
                "edgeTokenizer": {
                  "type": "edgeNGram",
                  "min_gram": "3",
                  "max_gram": "8",
                  "token_chars": [
                    "letter",
                    "digit"
                  ]
                }
            }
        }
    }
}

这是我的映射的相关部分:
{ "content": { "properties": { "title": { "type": "text", "analyzer": "edgeNGramAnalyzer", "fields": { "sort": { "type": "keyword" } } }, "description": { "type": "text", "analyzer": "edgeNGramAnalyzer", "fields": { "sort": { "type": "keyword" } } } } } }

这是我的查询:
new MultiMatchQueryBuilder(query).field("title", 3).field("description", 1).fuzziness(0).tieBreaker(1).minimumShouldMatch("100%")

你知道我可能做错了什么吗？

最佳答案

那是因为您使用的是 edgeNGram 标记器，而不是 nGram 。前者仅索引前缀，而后者将索引数据的前缀，后缀以及子部分。

将您的分析器定义更改为此，它应该可以按预期工作:
{ "index": { "analysis": { "analyzer": { "edgeNGramAnalyzer": { "tokenizer": "edgeTokenizer", "filter": [ "word_delimiter", "lowercase", "unique" ] } }, "tokenizer": { "edgeTokenizer": { "type": "nGram", <---- change this "min_gram": "3", "max_gram": "8", "token_chars": [ "letter", "digit" ] } } } } }

关于elasticsearch - 为什么我的Elasticsearch多重匹配查询仅查找前缀？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45189677/

elasticsearch - 为什么我的Elasticsearch多重匹配查询仅查找前缀？

上一篇：java - 完成后，Mediaplayer不会在第一次单击时重新启动

下一篇：spring - Spring Boot自定义连接对象