python - 使用 python 求解 7000x7000 线性系统时的最佳性能方法

标签 python lapack matrix-inverse

我需要一种有效的方法来在 python 中反转 7000x7000 空气动力影响系数(密集)矩阵。在使用 FORTRAN 例程之前,我已经开始使用 LAPACK 中的 LU 分解例程来处理问题,我已经看到它在其他相关应用程序中的使用非常有效。不过,我读到,NumPy 和 SciPy 线性系统求解器大多基于直接调用 C 中相同的 LAPACK/BLAS 函数,并且想知道切换到 FORTRAN 是否真的会将计算时间减少到足以证明放弃的水平一种更简单、更高级的语言。

如果有 Python 求解器可以保证该大小(1000 到 10000,方形)的矩阵具有相似的性能,它们是哪些?

我确实需要矩阵逆,因此切换到迭代 Ax=b 解决方案不是一个选择。

最佳答案

事实上,Numpy 和 Scipy 有效地调用 LAPACK 例程来执行 numpy.linalg.inv scipy.linalg.inv .

要逆一般矩阵, numpy.linalg.inv 解决A.x=np.eye((n,n)) 。函数inv()来电 ainv = _umath_linalg.inv(a, signature=signature, extobj=extobj) ,其中 calls call_@lapack_func@(&params);哪里params.B是单位矩阵并且 @lapack_func@sgesv, dgesv, cgesv, zgesv 之一,它们是一般矩阵的线性求解器。

另一方面,scipy.linalg.inv calls getri ,定义为get_lapack_funcs(('getri'),(a1,)) 。它对应于 DGETRI() lapack 的函数,旨在使用 DGETRF() 计算的 LU 分解来计算矩阵的逆。 因此,如果您使用 DGETRI()在 Fortran 中,利用 scipy.linalg.inv()在 python 中可能会实现类似的性能和结果。

大多数 Lapack 函数都可以使用 scipy.linalg.lapack 调用。这是一个使用 scipy.linalg.cython_lapack.dgetri() 的示例在 cython 模块中:How to compile C extension for Python where C function uses LAPACK library?下面是一个示例代码,在 1000x1000 矩阵上比较 scipy.linalg.cython_lapack.dgetrf()+scipy.linalg.cython_lapack.dgetri() 、 numpy 和 scipy.linalg.inv() :

import numpy as np
from scipy import linalg
import time

import myinverse
n=1000
A=np.random.rand(n,n)

start= time.time()
Am,info,string=myinverse.invert(A.copy())
end= time.time()
print 'DGETRF+DGETRI, ', end-start, ' seconds'
if info==0:
    print 'residual ',np.linalg.norm(A.dot(Am)-np.identity(n), np.inf)
else :
    print "inversion failed, info=",info, string

start= time.time()
Am=np.linalg.inv(A.copy())
end= time.time()
print 'np.linalg.inv ', end-start, ' seconds'
print 'residual ', np.linalg.norm(A.dot(Am)-np.identity(n), np.inf)

start= time.time()
Am=linalg.inv(A.copy())
end= time.time()
print 'scipy.linalg.inv ', end-start, ' seconds'
print 'residual ',np.linalg.norm(A.dot(Am)-np.identity(n), np.inf)

输出是:

DGETRF+DGETRI,  0.22541308403  seconds
residual  4.2155882951089296e-11
np.linalg.inv  0.29932808876  seconds
residual  4.371813154546711e-11
scipy.linalg.inv  0.298856973648  seconds
residual  9.110997546690758e-11

对于 2000x2000 矩阵:

DGETRF+DGETRI,  1.64830899239  seconds
residual  8.541625644634121e-10
np.linalg.inv  2.02795410156  seconds
residual  7.448244269611659e-10
scipy.linalg.inv  1.61937093735  seconds
residual  1.6453560233026243e-09

LAPACK inversion routine strangely mixes up all variables 中提供了链接 DGETRF()+DGETRI() 的 Fortran 代码。 进行一些更改后,运行:

PROGRAM solvelinear
implicit none
REAL(8), dimension(1000,1000)     :: A,Ainv,M,LU
REAL(8),allocatable              :: work(:)
REAL(8)                          :: wwork
INTEGER                        :: info,lwork
INTEGER,dimension(1000)        :: ipiv
INTEGER                        :: i,j
real :: start, finish

        ! put code to test here


info=0
!work=0
ipiv=0

call RANDOM_NUMBER(A)

call cpu_time(start)
!-- LU factorisation
LU = A
CALL DGETRF(1000,1000,LU,1000,ipiv,info)

!-- Inversion of matrix A using the LU
Ainv=LU
lwork=-1
CALL DGETRI(1000,Ainv,1000,Ipiv,wwork,lwork,info)
lwork =INT( wwork+0.1)
allocate(work(lwork))
CALL DGETRI(1000,Ainv,1000,Ipiv,work,lwork,info)
deallocate(work)

call cpu_time(finish)
print '("Time = ",f6.3," seconds.")',finish-start

!-- computation of A^-1 * A to check the inverse
M = matmul(Ainv,A)

print*,"M = "
do i=1,3
  do j=1,3
    print*,M(i,j)
  enddo
end do

END PROGRAM solvelinear

使用 gfortran main2.f90 -o main2 -llapack -lblas -lm -Wall 编译后,1000x1000矩阵需要0.42s,2000x2000矩阵需要3s。

最后,如果 Fortran 代码和 Python 代码未链接到相同的 Blas/Lapack 库,则可能会出现不同的性能。要调查此问题,请键入类似 np.__config__.show() 的命令。如Link ATLAS/MKL to an installed Numpy所示或 How to check BLAS/LAPACK linkage in NumPy and SciPy? 中报告的命令.

为了进一步利用分布式计算,petsc不鼓励对完整矩阵求逆,因为很少需要这样做。还写道MatMatSolve(A,B,X) ,其中BX可以使用稠密矩阵来做到这一点。此外,Python接口(interface)petsc4py中提供了这个功能。作为方法matSolve(self, Mat B, Mat X)对于对象 petsc4py.PETSc.Mat 。不再维护 Elemental library被列为实现密集矩阵的直接求解器。虽然 Elemental 库支持 python 接口(interface),但它的分支 Hydrogen 不再支持它。 尽管如此,Elemental 页面还是列出了一些与分布式密集线性代数相关的开源项目。 ScaLapack 提供了例程 PDGETRI() / PZGETRI() 使用 LU 分解来反转分布式稠密矩阵。这可能会为更快的反转留下一些空间。

关于python - 使用 python 求解 7000x7000 线性系统时的最佳性能方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59460326/

相关文章:

java - 无法使用 selenium webdriver 获取元素文本

python - GPU 上的 NumPy + BLAS + LAPACK(AMD 和 Nvidia)

python - numpy:可以反转零行列式矩阵吗?

c++ - 如何将 lapack 和 BLAS 库链接到 C++ 代码

r - 从 R 中的三对角对称矩阵获取特征值,就像在 lapack dstev 中一样

python - Sympy - 仅在特定位置查找矩阵的逆?

matlab - 在 Matlab 中使用 inv() 函数会使用所有 RAM 崩溃

python - 使用 Python Django 进行电子邮件日志记录

python - 使用 grid_mapping ValueError 保存 NetCDF

python - 递归函数将任意函数应用于任意长度的 N 个数组,形成一个 N 维的锯齿状多维数组