elasticsearch - Elasticsearch:JSON获取特定术语的频率

标签 elasticsearch word-frequency term-vectors

我认为这是一个简单的应用程序,但是我在互联网上找不到食谱。

您是否可以建议通过JSONpython查询发送到Elasticsearch实例,该实例将返回特定字段中特定术语的出现频率?

我猜想应该通过对术语 vector API进行一些调整来实现,但这似乎并不简单。

我不介意同时获得绝对频率和包含该术语的文档数量。

最佳答案

如果您有ID,则可以使用Multivectors API https://www.elastic.co/guide/en/elasticsearch/reference/6.8/docs-multi-termvectors.html

curl -X POST "localhost:9200/index/type/_mtermvectors?pretty" -H 'Content-Type: application/json' -d' 
{
    "ids" : ["your_document_id1","your_document_id2"],      
    "parameters": {
        "fields": [
                "your_field"       
        ],
        "term_statistics": true
    }
}
'

您甚至可以传递带有您要分析的术语的人工文档。如此处所述(https://www.elastic.co/guide/en/elasticsearch/reference/current/docs-termvectors.html),请确保将term_statistics设置为true,以便可以在整个索引中获取此信息:
  • 总术语频率(一个术语在所有文档中出现的频率)
  • 文档频率(包含当前术语的文档数)
  • 关于elasticsearch - Elasticsearch:JSON获取特定术语的频率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60166862/

    相关文章:

    elasticsearch - Elasticsearch -搜索 token 别名

    elasticsearch - CQRS:在 ElasticSearch 读取模型中项目乱序通知

    java - 无法连接到我的 Elasticsearch 实例 : NoNodeAvailableException

    php - 客户端需要 Elasticsearch 运行时异常 curl_multi_exec() 函数

    solr - 计算SOLR索引中单词的总频率

    java - 文档中的单词计数频率

    c - 如何编写涉及 Unicode 的 C 代码?

    elasticsearch - Elasticsearch术语向量API字段统计信息含义