出于说明目的,我们假设这是一个论坛服务。我需要计算每个用户帖子之间的“相似度”,以便结果类似于:
among posts by user A, similarity 60%
among posts by user B, similarity 20%
...
我正在处理多字节字符串,所以我想我在这里被搜索引擎困住了。我们已经在使用 Solr,已经实现了 moreLikeThis,但我不太确定如何构造查询。任何帮助表示赞赏!
最佳答案
关于solr - 测量文档集之间的相似性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6069922/