search - 检索文档的一些重要术语

标签 search solr lucene tf-idf

我正在寻找一种简单的方法来获取描述特定文档的 5-10 个最重要术语的列表。它甚至可以基于特定字段,比如项目描述。

我认为这应该很容易。无论如何,Solr 都会根据每个术语在文档中出现的相对次数与其在所有文档中的总体出现次数 (tf-idf) 进行评分

但是,我找不到一种方法来将我要传递给 Solr 的文档并获取我想要的术语列表。

最佳答案

如果您只需要文档中的热门术语,您可以使用 Term Vector Component ,假设您的字段有 termVectors="true" 可以求tv.tf_idf,取得分最高的前n个term。

关于search - 检索文档的一些重要术语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22386160/

相关文章:

java - 使用 Java 处理单词缩略的有效方法是什么?

solr - 如何在Nutch中抓取图像?

lucene - 将 Lucene 存储库与源数据同步的最佳实践?

lucene - Apache Tika 与 Apache Lucene

javascript - 使用 JavaScript 在多维数组 B 中查找数组 A

java - 查找从 Java 中的 .txt 文件读取的字符串的特定元素

java - 如何简化基于先前过滤结果的流搜索?

c - 递归地在 bst 中搜索非键值

indexing - 数据已索引后如何更改 solr 字段类型

search - 使用字段值影响 Solr 搜索结果