<分区>
我使用 tf/idf 来计算两个文档之间的余弦相似度。它有一些局限性并且表现不佳。
我寻找 LDA(latent dirichlet allocation)来计算文档相似度。我不知道 很多关于这个。我也找不到很多关于我的问题的东西。
能否提供与我的问题相关的任何教程?或者你能给我一些建议,我怎样才能用 LDA 完成这个任务???
谢谢
P.S: 是否有可用的源代码来使用 LDA 执行此类任务??
<分区>
我使用 tf/idf 来计算两个文档之间的余弦相似度。它有一些局限性并且表现不佳。
我寻找 LDA(latent dirichlet allocation)来计算文档相似度。我不知道 很多关于这个。我也找不到很多关于我的问题的东西。
能否提供与我的问题相关的任何教程?或者你能给我一些建议,我怎样才能用 LDA 完成这个任务???
谢谢
P.S: 是否有可用的源代码来使用 LDA 执行此类任务??
最佳答案
您看过 Lucene 和 Mahout 了吗?
这可能有用 - Latent Dirichlet Allocation使用 Lucene 和 Mahout。
关于java - 文档相似度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2277787/