elasticsearch - Elasticsearch分析器配置

标签 elasticsearch

我在elasticsearch中运行术语统计,并且得到结果:

 "tevez's": {
               "doc_freq": 165,
               "ttf": 245,
               "term_freq": 1,
               "tokens": [
                  {
                     "position": 722,
                     "start_offset": 4077,
                     "end_offset": 4084
                  }
               ],
               "score": 9.041515

如何告诉Elasticsearch考虑tevez'stevez
一样吗?

我也得到:
"benched": {
               "doc_freq": 130,
               "ttf": 140,
               "term_freq": 1,
               "tokens": [
                  {
                     "position": 757,
                     "start_offset": 4292,
                     "end_offset": 4299
                  }
               ],
               "score": 9.278306

如何告诉elasticsearch将benchedbench视为相同?

最佳答案

  • 使用possessive_english删除's
  • 使用porter或其他词干删除时态和其他

  • 对于英语,这是词干的完整list

    另外,您需要创建如下设置:
    {
      "settings": {
        "index": {
          "analysis": {
            "filter": {
              "possessive": {
                "type": "stemmer",
                "language": "possessive_english"
              },
              "porter": {
                "type": "stemmer",
                "language": "english"
              }
            },
            "analyzer": {
              "custom_english": {
                "tokenizer": "standard",
                "filter": [
                  "lowercase",
                  "porter",
                  "possessive"
                ]
              }
            }
          }
        }
      }
    }
    

    最后,请求$endpoint/$index/_analyze?analyzer=persian_keyword_analyzer&‌​text=$text以查看词干效果。

    关于elasticsearch - Elasticsearch分析器配置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40973537/

    相关文章:

    node.js - CORS 将 HTTP 请求锁定到在 Firebase 上提供的 Angular 上的 Elasticsearch 服务器

    elasticsearch - 如何(持久)更新 Elasticsearch 中的 index.number_of_replicas 设置而不重新启动集群?

    elasticsearch - ElasticSearch-过滤从嵌套查询返回的数据

    php - Elasticsearch 2 + PHP滚动流程问题

    elasticsearch - Kibana返回 “Connection Failed”- Unresolved 错误

    java - 如果值不存在则更新的 ElasticSearch 脚本

    elasticsearch - Elasticsearch:在将记录插入索引时,我不想创建索引映射

    ruby - elasticsearch-logstash时差计算(ELK 5.3)

    elasticsearch - 在 Open Distro For Elasticsearch 上启用 xpack 功能

    elasticsearch - Marvel 无法连接到 Elasticsearch 节点