python - 如何基于共现矩阵计算相似度?

标签 python matrix cosine-similarity find-occurrences

我有一个项目-项目矩阵 (1877 x 1877)。矩阵中的值表示两个项目同时出现的次数。如何确定两个项目之间的相似性? 通过阅读,我发现几乎没有选择。但是我不确定这些方法。感谢任何开始的输入。

  1. 使用余弦计算两个向量之间的 sim
  2. 将其转换成图表,使用 simrank 等度量来计算相似度 - 可以使用出现次数作为两个节点之间的权重。

最佳答案

我建议使用 spatial cosine similarity .或者你可以计算 jaccard's similarity对于每个项目对。

在计算出任一相似性矩阵(亲和矩阵)后,您可以使用光谱(或空间)聚类算法,例如 sklearn's spectral clustering对这些项目进行分组的算法。

关于python - 如何基于共现矩阵计算相似度?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41974321/

相关文章:

Python Shell 返回导入错误 : No module named 'ldap' exception

跨多个类和文件的 Python 日志记录;如何配置才能轻松禁用?

Matlab 预分配,猜猜是大矩阵还是小矩阵?

python - 如何将 Pandas 数据框中的字符串值替换为整数?

python - Django 中的社交媒体链接

python - 游戏终端板

c - 如何在 C 中对二维数组使用 double for 循环?

sorting - 定义自定义 sortperm 函数

java - Mahout:基于项目的推荐系统的调整余弦相似度

r - tm.package : findAssocs vs Cosine