我正在寻找一种简单的方法来获取描述特定文档的 5-10 个最重要术语的列表。它甚至可以基于特定字段,比如项目描述。
我认为这应该很容易。无论如何,Solr 都会根据每个术语在文档中出现的相对次数与其在所有文档中的总体出现次数 (tf-idf) 进行评分
但是,我找不到一种方法来将我要传递给 Solr 的文档并获取我想要的术语列表。
最佳答案
如果您只需要文档中的热门术语,您可以使用 Term Vector Component ,假设您的字段有 termVectors="true"
可以求tv.tf_idf,取得分最高的前n个term。
关于search - 检索文档的一些重要术语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22386160/