java - 文档相似度

标签 java math dirichlet

<分区>

我使用 tf/idf 来计算两个文档之间的余弦相似度。它有一些局限性并且表现不佳。

我寻找 LDA(latent dirichlet allocation)来计算文档相似度。我不知道 很多关于这个。我也找不到很多关于我的问题的东西。

能否提供与我的问题相关的任何教程?或者你能给我一些建议,我怎样才能用 LDA 完成这个任务???

谢谢

P.S: 是否有可用的源代码来使用 LDA 执行此类任务??

最佳答案

您看过 Lucene 和 Mahout 了吗?

这可能有用 - Latent Dirichlet Allocation使用 Lucene 和 Mahout。

关于java - 文档相似度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2277787/

相关文章:

java - 从另外两个 arrayList 创建一个 arrayList 并仅保留两个 arrayList 中相同的值

swift - 21如何计算! (21 阶乘)快速?

python - 如何使用 pymc 为贝叶斯网络制作条件概率表 (CPT)

javascript - 曲线公式(javascript 中的代数)

python - 使用 Lambdas 从字符串表达式构建可执行函数

java - 如何使用语言模型扩展 Lucene?

Java Minecraft 服务器无法在 Linux 虚拟服务器机器上运行/监听 IPv4

java - Hibernate:尽管列存在,但在 having 子句中出现 MySQL 错误未知列

java - 对数组使用 Nullness 注释