python - Scipy稀疏...数组?

标签 python matrix numpy scipy sparse-matrix

所以,我正在使用非常稀疏的 numpy 数组进行一些 Kmeans 分类 - 很多很多零。我想我会使用 scipy 的“稀疏”包来减少存储开销,但我对如何创建数组而不是矩阵有点困惑。

我已经阅读了有关如何创建稀疏矩阵的教程: http://www.scipy.org/SciPy_Tutorial#head-c60163f2fd2bab79edd94be43682414f18b90df7

为了模拟一个数组,我只创建了一个 1xN 矩阵,但正如您可能猜到的那样,Asp.dot(Bsp) 并不能很好地工作,因为您不能将两个 1xN 矩阵相乘。我必须将每个数组转置为 Nx1,这很糟糕,因为我会为每个点积计算都这样做。

接下来,我尝试创建一个 NxN 矩阵,其中第 1 列 == 第 1 行(这样您可以将两个矩阵相乘并将左上角作为点积),但结果证明效率非常低.

我很想使用 scipy 的 sparse 包作为 numpy 的 array() 的神奇替代品,但到目前为止,我还不确定该怎么做。

有什么建议吗?

最佳答案

使用基于行或列的 scipy.sparse 格式:csc_matrixcsr_matrix

这些在底层使用高效的 C 实现(包括乘法),并且转置是无操作的(尤其是如果您调用 transpose(copy=False)),就像使用 numpy 数组一样.

编辑:通过 ipython 进行一些计时:

import numpy, scipy.sparse
n = 100000
x = (numpy.random.rand(n) * 2).astype(int).astype(float) # 50% sparse vector
x_csr = scipy.sparse.csr_matrix(x)
x_dok = scipy.sparse.dok_matrix(x.reshape(x_csr.shape))

现在 x_csrx_dok 是 50% 稀疏的:

print repr(x_csr)
<1x100000 sparse matrix of type '<type 'numpy.float64'>'
        with 49757 stored elements in Compressed Sparse Row format>

还有时间:

timeit numpy.dot(x, x)
10000 loops, best of 3: 123 us per loop

timeit x_dok * x_dok.T
1 loops, best of 3: 1.73 s per loop

timeit x_csr.multiply(x_csr).sum()
1000 loops, best of 3: 1.64 ms per loop

timeit x_csr * x_csr.T
100 loops, best of 3: 3.62 ms per loop

看来我撒了谎。转置 非常便宜,但没有 csr * csc 的高效 C 实现(在最新的 scipy 0.9.0 中)。每次调用都会构造一个新的 csr 对象 :-(

作为一个hack(虽然scipy现在比较稳定),你可以直接在稀疏数据上做点积:

timeit numpy.dot(x_csr.data, x_csr.data)
10000 loops, best of 3: 62.9 us per loop

请注意,最后一种方法再次执行 numpy 密集乘法。稀疏度为 50%,因此它实际上比 dot(x, x) 快 2 倍。

关于python - Scipy稀疏...数组?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2540059/

相关文章:

python - Python 中的特殊张量收缩

python - Django:django-tables2 分页和过滤

python - 无法使用 'where' 和变量删除 SQLite 行

python - 在 numpy 数组上应用统计方法 : unexpected results

python - python中的巨大稀疏矩阵

python - 值列表彼此之间的余弦相似度

c++ - 在 C 或 C++ 中是否有用于矩阵计算的开源模板库?

c - 使用出租车几何的距离 : weird output

Java Chess,如何更新棋盘?

python - numpy.random.choice 替换是否等同于单次试验的多项式抽样?