python - 如何对称排序相关矩阵?

标签 python arrays sorting matrix correlation

我正在处理相关矩阵,我想重新排列行和列,使平均相关性最高的列位于中间,第二好的是高于它的一个索引,第三个是低于中间的一个索引, 等等等等。

在一个例子中,这是原始矩阵

[[ 1.        , -0.85240671,  0.93335528,  0.75431679,  0.81586527],
 [-0.85240671,  1.        , -0.874545  , -0.68551567, -0.8594703 ],
 [ 0.93335528, -0.874545  ,  1.        ,  0.7103762 ,  0.86104527],
 [ 0.75431679, -0.68551567,  0.7103762 ,  1.        ,  0.73345121],
 [ 0.81586527, -0.8594703 ,  0.86104527,  0.73345121,  1.        ]]

理想情况下,新的列/行顺序(使用 python 索引)是 3、1、2、0、4。所以它看起来像

[[1,-.686,.710,.754,.733], 
 [-.686,1,-.875,-.852,-.859], 
 [.710,-.875,1,.933,.861], 
 [.754,-.852,.754,1,.816], 
 [.733,-.859,.861,.816,1]]

我所知道的排序算法似乎都无法满足我的“对称”目标。我正在为我的矩阵使用 numpy。

一些矩阵不会有奇数维度,所以我也想要一种方法来处理维度为偶数的矩阵(如果可能的话)。任何帮助都会很棒。

最佳答案

我不确定你问题的“确定最大相关性的顺序”部分,但这并不是问题的真正核心。

我认为,假设您的数组名为 arr,确定降序相关的顺序可以通过以下方式完成

corrs = arr.sum(axis=0)
corr_order = corrs.argsort()[::-1] 

但是您的问题的主要部分是以这种特定的“中间最大”顺序填充您的矩阵。必须有一种更优雅的方法,但这是我在对列进行递减排序后获得列顺序的方法:

ndim = arr.shape[0]
inds_orig = list(range(ndim))
inds = []
for _ in range(ndim):
    inds.append(inds_orig[(len(inds_orig)-1)//2])
    del inds_orig[(len(inds_orig)-1)//2]
inds = np.array(inds)

现在,上面的 ndim=5 会给我们

array([2, 1, 3, 0, 4])

这似乎正是您想要的:中间的第一个(最大)列,然后是交替两侧的每个后续项目。

现在我们需要组合这两个数组以获得原始数组的排序+重新排列版本。当我们真的想获得基本索引时,使用数组索引 2d 数组会触发花式索引会带来一些不便。所以我们需要 np.ix_将我们的奇特索引转换为等效的有效切片索引:

res = np.empty_like(arr)
res[np.ix_(inds,inds)] = arr[np.ix_(corr_order,corr_order)]

结果是

array([[ 1.        ,  0.7103762 ,  0.75431679,  0.73345121, -0.68551567],
       [ 0.7103762 ,  1.        ,  0.93335528,  0.86104527, -0.874545  ],
       [ 0.75431679,  0.93335528,  1.        ,  0.81586527, -0.85240671],
       [ 0.73345121,  0.86104527,  0.81586527,  1.        , -0.8594703 ],
       [-0.68551567, -0.874545  , -0.85240671, -0.8594703 ,  1.        ]])

检查这个矩阵是否符合我对“最大相关性”的定义:

>>> print(res.sum(axis=0))
[ 2.51262853  2.63023175  2.65113063  2.55089145 -2.27193768]

如您所见:中间最大,然后左边一个,右边一个,然后是第一个,然后是最后一个。

除非我弄错了,否则另一个选择是 invert the sorting permutation在左侧,并且仅通过将一个索引数组索引到另一个索引来在右侧进行索引。我不确定这是否比这种方法更清晰,所以我坚持使用这种方法。

关于python - 如何对称排序相关矩阵?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45080846/

相关文章:

java - 每个按钮的 ActionListener 都有不同的变量

c# - 如何在 C# 中将结构体数组元素提取到变量中而不进行复制?

django - 按对象的 date_created 属性对来自不同模型的查询集对象列表进行排序

Python - 降低 niceness 值

python - 使用 BeautifulSoup 创建 XML 文档

python - 为什么空闲 Python 线程消耗高达 90% 的 CPU?

arrays - channel 元素类型太大 Golang

java - Java vector 中的冒泡排序

python - 如何检查一个序列是否可以变成回文

Python 3.4 多处理递归 Pool.map()