python - 通过 scipy 给出相似矩阵的树状图

标签 python scipy dendrogram hcluster

我用 Python 计算了一个 jaccard 相似度矩阵。我想将最高相似度聚类到最低相似度,但是,无论我使用什么链接函数,它都会产生相同的树状图!我有一种感觉,该函数假设我的矩阵是原始数据,但我已经计算了第一个相似度矩阵。有什么方法可以将这个相似度矩阵传递给树状图,以便正确绘制?或者我是否必须输出矩阵并简单地使用 R 来完成。传递原始原始数据是不可能的,因为我正在计算单词的相似性。感谢您的帮助!

这是一些代码:

SimMatrix = [[ 0.,0.09259259,  0.125     ,  0.        ,  0.08571429],
   [ 0.09259259,  0.        ,  0.05555556,  0.        ,  0.05128205],
   [ 0.125     ,  0.05555556,  0.        ,  0.03571429,  0.05882353],
   [ 0.        ,  0.        ,  0.03571429,  0.        ,  0.        ],
   [ 0.08571429,  0.05128205,  0.05882353,  0.        ,  0.        ]]

linkage = hcluster.complete(SimMatrix) #doesnt matter what linkage...
dendro  = hcluster.dendrogram(linkage) #same plot for all types?
show()

如果您运行这段代码,您将看到一个完全反向的树状图。无论我使用哪种链接类型,它都会生成相同的树状图。这在直觉上是不正确的!

最佳答案

这是解决方案。事实证明,SimMatrix 需要首先转换为压缩矩阵(该矩阵的对角线、右上角或左下角)。 您可以在下面的代码中看到这一点:

import scipy.spatial.distance as ssd
distVec = ssd.squareform(SimMatrix)
linkage = hcluster.linkage(1 - distVec)
dendro  = hcluster.dendrogram(linkage)
show()

关于python - 通过 scipy 给出相似矩阵的树状图,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29022451/

相关文章:

python - numpy:反转上三角矩阵

python - 我的 scipy.sparse.linalg.eigs 发生了什么?

r - 在 R 中向树状图叶子添加符号

r - 将树状图添加到 ggplot2 热图

python - 解析 json 文件以收集数据并存储在列表/数组中

python - 使用循环中的参数具有不同数量的 for 循环的函数

python - SciPy 中的二维积分

python - 计算 Pandas 数据帧中联合的交集(Jaccard 索引)

python - 模型表单不是使用 django 模型表单自动生成的

r - 在 R 中生成高分辨率树状图