java - LSA - 找到 SVD 后的步骤

标签 java similarity svd latent-semantic-indexing

从早上开始我已经读了很多教程了。我的问题涉及找到两个文档之间的相似性。我期待在 java 中使用 LSA 来实现此目的。

我理解了术语文档矩阵的创建,然后对其应用了 SVD(维度减少)。结果获得了 3 个矩阵。这可能听起来很愚蠢,但我已经坚持这个问题有一段时间了。现在,如果我必须找到两个文档之间的相似性,我该怎么办?

最佳答案

使用 SVD 计算出 3 个矩阵后,您需要计算要比较的两个文档的 vector 之间的相关性。您可以使用斯 PIL 曼相关性。 另一种方法是使用余弦距离。

您可以在 LSA 找到更多详细信息,有一个完整的示例和解释。

您可能会搜索一些用于 LSA 的 java 库。

关于java - LSA - 找到 SVD 后的步骤,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8922442/

相关文章:

python - 客户购买/收听行为的 "similar products/music/..."统计计算是如何工作的?

java - 什么是确定 2 个字符串是否为 "similar enough"的好指标

matlab - 如何在图像上应用 SVD 后检查图像是否被压缩(关于磁盘上压缩图像的大小)

python - 截断的 SVD 需要很多时间

java - Calendar类中常量DATE与getTime()的关系

java - 在 java spring web 应用程序中保存安全信息的最佳位置

java - 互斥jsf selectOneMenu 项目

solr - 使用 Solr 的 NGramFilterFactory 进行相似性搜索

python - 在 PyTorch 中加速 SVD

Java unicode字节解析