solr - 测量文档集之间的相似性

标签 solr lucene morelikethis

出于说明目的,我们假设这是一个论坛服务。我需要计算每个用户帖子之间的“相似度”,以便结果类似于:

among posts by user A, similarity 60%
among posts by user B, similarity 20%
...

我正在处理多字节字符串,所以我想我在这里被搜索引擎困住了。我们已经在使用 Solr,已经实现了 moreLikeThis,但我不太确定如何构造查询。任何帮助表示赞赏!

最佳答案

可能 Carrot2您会感兴趣(和 this blog 与之相关)

关于solr - 测量文档集之间的相似性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6069922/

相关文章:

solr - Solr 查询中的 NOW/DAY 如何工作?

Solr - 使用属性作为键/值对对产品进行索引

algorithm - lucene如何索引文件?

elasticsearch - 为并行查询优化 Elasticsearch

lucene - 如何查找相似文档

elasticsearch - ElasticSearch如何使用Boost

java - 如何动态过滤 Lucene 的 MoreLikeThis?

tomcat - Apache Tomcat 环境变量

python - Lucene 位置索引如何如此高效地工作?

java - 加载分析器时 Lucene ClassNotFoundError