我有一组文档,并且我已经计算了这两个文档
- 词频得分
- 逆频率分数
- TF/IDF 得分
现在我需要计算特定查询和文档之间的相似度,这将产生一个分数,该分数将文档从与查询的最高相似度到最低相似度进行排名。
我查了很多资料,但我不明白这个公式。
来源:http://en.wikipedia.org/wiki/Vector_space_model
有人可以指导我吗?我只需要知道如何从目前的进度出发。
最佳答案
Lucene是一个开源库,可以为您完成这一切。
关于java - 如何计算查询和文档之间的相似度?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5296688/