python - Numpy:当某些向量元素等于零时,矩阵向量乘法不会跳过计算吗?

标签 python numpy matrix-multiplication blas

我最近一直在做一个项目,我的大部分时间都花在乘以密集矩阵 A 和稀疏向量 v(参见 here) .在尝试减少计算时,我注意到 A.dot(v) 的运行时间不受 v 的零条目数的影响。

为了解释为什么我希望运行时间在这种情况下有所改善,让 result = A.dot.v 以便 result[j] = sum_i(A[i,j] *v[j]) 对于 j = 1...v.shape[0]。如果 v[j] = 0 那么显然 result[j] = 0 无论值 A[::,j]。在这种情况下,我因此希望 numpy 只设置 result[j] = 0 但它似乎继续计算 sum_i(A[i,j]*v[j ]) 无论如何。

我继续写了一个简短的示例脚本来确认下面的这种行为。

import time
import numpy as np

np.__config__.show() #make sure BLAS/LAPACK is being used
np.random.seed(seed = 0)
n_rows, n_cols = 1e5, 1e3

#initialize matrix and vector
A = np.random.rand(n_rows, n_cols)
u = np.random.rand(n_cols)
u = np.require(u, dtype=A.dtype, requirements = ['C'])

#time
start_time = time.time()
A.dot(u)
print "time with %d non-zero entries: %1.5f seconds" % (sum(u==0.0), (time.time() - start_time))

#set all but one entry of u to zero
v = u
set_to_zero = np.random.choice(np.array(range(0, u.shape[0])), size = (u.shape[0]-2), replace=False)
v[set_to_zero] = 0.0

start_time = time.time()
A.dot(v)
print "time with %d non-zero entries: %1.5f seconds" % (sum(v==0.0), (time.time() - start_time))


#what I would really expect it to take
non_zero_index = np.squeeze(v != 0.0)
A_effective = A[::,non_zero_index]
v_effective = v[non_zero_index]


start_time = time.time()
A_effective.dot(v_effective)
print "expected time with %d non-zero entries: %1.5f seconds" % (sum(v==0.0), (time.time() - start_time))

运行它,我发现无论我使用密集矩阵 u 还是稀疏矩阵 v,矩阵向量乘法的运行时间都是相同的:

time with 0 non-zero entries: 0.04279 seconds
time with 999 non-zero entries: 0.04050 seconds
expected time with 999 non-zero entries: 0.00466 seconds

我想知道这是否是设计使然?还是我在运行矩阵向量乘法的过程中遗漏了一些东西。 就像健全性检查一样:我确保 numpy 链接到我机器上的 BLAS 库并且两个数组都是 C_CONTIGUOUS(因为这显然是 numpy 调用 BLAS 所必需的)。

最佳答案

试试像这样的简单函数怎么样?

def dot2(A,v):
    ind = np.where(v)[0]
    return np.dot(A[:,ind],v[ind])

In [352]: A=np.ones((100,100))

In [360]: timeit v=np.zeros((100,));v[::60]=1;dot2(A,v)
10000 loops, best of 3: 35.4 us per loop

In [362]: timeit v=np.zeros((100,));v[::40]=1;dot2(A,v)
10000 loops, best of 3: 40.1 us per loop

In [364]: timeit v=np.zeros((100,));v[::20]=1;dot2(A,v)
10000 loops, best of 3: 46.5 us per loop

In [365]: timeit v=np.zeros((100,));v[::60]=1;np.dot(A,v)
10000 loops, best of 3: 29.2 us per loop

In [366]: timeit v=np.zeros((100,));v[::20]=1;np.dot(A,v)
10000 loops, best of 3: 28.7 us per loop

一个完全迭代的 Python 实现是:

def dotit(A,v, test=False):
    n,m = A.shape  
    res = np.zeros(n)
    if test:
        for i in range(n):
            for j in range(m):
                if v[j]:
                    res[i] += A[i,j]*v[j]
    else:
        for i in range(n):
            for j in range(m):
                res[i] += A[i,j]*v[j]
    return res

显然这不会像编译的dot 那样快,但我希望测试的相对优势仍然适用。为了进一步测试,您可以在 cython 中实现它。

请注意 v[j] 测试发生在迭代的深处。

对于稀疏 v(100 个元素中的 3 个)测试可以节省时间:

In [374]: timeit dotit(A,v,True)
100 loops, best of 3: 3.81 ms per loop

In [375]: timeit dotit(A,v,False)
10 loops, best of 3: 21.1 ms per loop

但是如果 v 是密集的,它会花费时间:

In [376]: timeit dotit(A,np.arange(100),False)
10 loops, best of 3: 22.7 ms per loop

In [377]: timeit dotit(A,np.arange(100),True)
10 loops, best of 3: 25.6 ms per loop

关于python - Numpy:当某些向量元素等于零时,矩阵向量乘法不会跳过计算吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35282214/

相关文章:

python - 使用 ssl 访问 kafka 代理时出错

python paramiko ssh session 获取不到系统路径

python - 将 'now' 时间戳列添加到 pandas df

python - 有人可以帮我把这段简短的代码片段翻译成Python吗?

python - 多个矩阵的加权和

matlab - 外积计算的向量化

python - 通过多个维度索引列表的方法

python - 在 App Engine 上,读取优化意味着什么?

python - 填充经过过滤的轮廓OpenCV Python内部

Python Numpy 问题和 Python 版本问题