我正在收集有关ElasticSearch的报纸文章。我想找到一个主题中最常出现的单词。 ElasticSearch有可能吗?我举一个例子来更好地解释:
我在我的收藏集中搜索唐纳德·特朗普,发现了2000篇文章。是否可以解析所有这些文章,收集所有 token 并对其进行排序以计数?
像这样:
{Donald Trump {USA: 200 times on 150 docs}, {presidential: 180 times on 130 docs},{Clinton: 150 times on 100 docs},{republican: 120 times on 110 docs}, etcetera...
最佳答案
虽然“术语”聚合确实可以为您提供您所描述的数据,但是您可能希望研究significant terms aggregation以获得更深入的数据。
以您的示例为例,搜索“王牌”将给您“美国”作为最常见的术语,但是对于“候选人”数据集中的大多数其他查询,情况就是如此。一个重要的术语聚合可能会显示“共和”,这是查询所描述的子集的更重要的特征。
关于elasticsearch - 如何使用Elasticsearch在一组文本上计算同现,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35557480/