elasticsearch - 如何使用Elasticsearch在一组文本上计算同现

标签 elasticsearch

我正在收集有关ElasticSearch的报纸文章。我想找到一个主题中最常出现的单词。 ElasticSearch有可能吗?我举一个例子来更好地解释:
我在我的收藏集中搜索唐纳德·特朗普,发现了2000篇文章。是否可以解析所有这些文章,收集所有 token 并对其进行排序以计数?

像这样:

 {Donald Trump {USA: 200 times on 150 docs}, {presidential: 180 times on 130 docs},{Clinton: 150 times on 100 docs},{republican: 120 times on 110 docs}, etcetera...

最佳答案

虽然“术语”聚合确实可以为您提供您所描述的数据,但是您可能希望研究significant terms aggregation以获得更深入的数据。

以您的示例为例,搜索“王牌”将给您“美国”作为最常见的术语,但是对于“候选人”数据集中的大多数其他查询,情况就是如此。一个重要的术语聚合可能会显示“共和”,这是查询所描述的子集的更重要的特征。

关于elasticsearch - 如何使用Elasticsearch在一组文本上计算同现,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35557480/

相关文章:

windows - “appid”, 'units'无法识别为内部或外部命令

elasticsearch - 在 Elasticsearch 中获取索引文档的倒排索引

elasticsearch - 聚合(一个字段中的许多值)elasticsearch

Python Elasticsearch DSL : How to map String field that's not analyzed?

mysql - 从 MYSQL 将数据填充到 elasticsearch 的良好实践

java - lucene中的TextFragment是什么?

php - 电子商务商店/Neast属性的 Elasticsearch 存储桶列表

json - 如何将 PST 文件解析/索引到 elasticsearch?

amazon-web-services - 字符串数据类型的 Elasticsearch 查询

mysql - Logstash:Elasticsearch 的未知设置 ‘“index”