python - 高效构建 FEM/FVM 矩阵

标签 python numpy matrix scipy scientific-computing

这是 FEM/FVM 方程系统的典型用例,因此可能引起更广泛的兴趣。从三角形网格 à la

enter image description here

我想创建一个scipy.sparse.csr_matrix。矩阵行/列表示网格节点处的值。该矩阵在主对角线上以及两个节点通过边连接的地方都有条目。

这是一个 MWE,它首先建立节点->边缘->单元关系,然后建立矩阵:

import numpy
import meshzoo
from scipy import sparse

nx = 1600
ny = 1000
verts, cells = meshzoo.rectangle(0.0, 1.61, 0.0, 1.0, nx, ny)

n = len(verts)

nds = cells.T
nodes_edge_cells = numpy.stack([nds[[1, 2]], nds[[2, 0]],nds[[0, 1]]], axis=1)

# assign values to each edge (per cell)
alpha = numpy.random.rand(3, len(cells))
vals = numpy.array([
    [alpha**2, -alpha],
    [-alpha, alpha**2],
    ])

# Build I, J, V entries for COO matrix
I = []
J = []
V = []
#
V.append(vals[0][0])
V.append(vals[0][1])
V.append(vals[1][0])
V.append(vals[1][1])
#
I.append(nodes_edge_cells[0])
I.append(nodes_edge_cells[0])
I.append(nodes_edge_cells[1])
I.append(nodes_edge_cells[1])
#
J.append(nodes_edge_cells[0])
J.append(nodes_edge_cells[1])
J.append(nodes_edge_cells[0])
J.append(nodes_edge_cells[1])
# Create suitable data for coo_matrix
I = numpy.concatenate(I).flat
J = numpy.concatenate(J).flat
V = numpy.concatenate(V).flat

matrix = sparse.coo_matrix((V, (I, J)), shape=(n, n))
matrix = matrix.tocsr()

python -m cProfile -o profile.prof main.py
snakeviz profile.prof

可以创建和查看以上的配置文件:

enter image description here

tocsr() 方法在这里占用了大部分的运行时间,但是当构建 alpha 更复杂时也是如此。因此,我正在寻找加快速度的方法。

我已经发现了什么:

  • 由于数据的结构,矩阵对角线上的值可以提前求和,即

    V.append(vals[0, 0, 0] + vals[1, 1, 2])
    I.append(nodes_edge_cells[0, 0])  # == nodes_edge_cells[1, 2]
    J.append(nodes_edge_cells[0, 0])  # == nodes_edge_cells[1, 2]
    

    这使得 IJV 更短,从而加快了 tocsr

  • 现在,边缘是“每个单元格”。我可以使用 numpy.unique 识别彼此相等的边,有效地节省了大约一半的 IJV。但是,我发现这也需要一些时间。 (不足为奇。)

我的另一个想法是,我可以用一个简单的 numpy 替换对角线 VIJ .add.at 如果有一个类似csr_matrix 的数据结构,其中主对角线是分开保存的。我知道这存在于其他一些软件包中,但在 scipy 中找不到。正确吗?

也许有一种明智的方法可以直接构建 CSR?

最佳答案

我会尝试直接创建 csr 结构,尤其是当您求助于 np.unique 时,因为这会为您提供排序的键,这已经完成了一半的工作。

我假设你正处在你有 i, j 字典排序和重叠 v 使用 np.add.at 求和的地方> 在 np.unique 的可选 inverse 输出上。

那么vj已经是csr格式了。剩下要做的就是创建 indptr,您可以通过 np.searchsorted(i, np.arange(M+1)) 获得它,其中 M 是列长度。您可以将它们直接传递给 sparse.csr_matrix 构造函数。

好吧,让代码说话:

import numpy as np
from scipy import sparse
from timeit import timeit


def tocsr(I, J, E, N):
    n = len(I)
    K = np.empty((n,), dtype=np.int64)
    K.view(np.int32).reshape(n, 2).T[...] = J, I  
    S = np.argsort(K)
    KS = K[S]
    steps = np.flatnonzero(np.r_[1, np.diff(KS)])
    ED = np.add.reduceat(E[S], steps)
    JD, ID = KS[steps].view(np.int32).reshape(-1, 2).T
    ID = np.searchsorted(ID, np.arange(N+1))
    return sparse.csr_matrix((ED, np.array(JD, dtype=int), ID), (N, N))

def viacoo(I, J, E, N):
    return sparse.coo_matrix((E, (I, J)), (N, N)).tocsr()


#testing and timing

# correctness
N = 1000
A = np.random.random((N, N)) < 0.001
I, J = np.where(A)

E = np.random.random((2, len(I)))
D = np.zeros((2,) + A.shape)
D[:, I, J] = E
D2 = tocsr(np.r_[I, I], np.r_[J, J], E.ravel(), N).A

print('correct:', np.allclose(D.sum(axis=0), D2))

# speed
N = 100000
K = 10

I, J = np.random.randint(0, N, (2, K*N))
E = np.random.random((2 * len(I),))
I, J, E = np.r_[I, I, J, J], np.r_[J, J, I, I], np.r_[E, E]

print('N:', N, ' --  nnz (with duplicates):', len(E))
print('direct: ', timeit('f(a,b,c,d)', number=10, globals={'f': tocsr, 'a': I, 'b': J, 'c': E, 'd': N}), 'secs for 10 iterations')
print('via coo:', timeit('f(a,b,c,d)', number=10, globals={'f': viacoo, 'a': I, 'b': J, 'c': E, 'd': N}), 'secs for 10 iterations')

打印:

correct: True
N: 100000  --  nnz (with duplicates): 4000000
direct:  7.702431229001377 secs for 10 iterations
via coo: 41.813509466010146 secs for 10 iterations

加速:5 倍

关于python - 高效构建 FEM/FVM 矩阵,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42349191/

相关文章:

python - 为什么字符 ID 160 在 PDFMiner 中不被识别为 Unicode?

python - 使用 NumPy 进行快速插值

python - 将 panda 对象转换为 numpy 数组

python - 如何在python 3上生成正弦波音调

math - GSL/BLAS : Multiply a matrix with an inverse matrix

Python:ulimit 和不错的 subprocess.call/subprocess.Popen?

python - 向 API 发送文件时出现问题

python - 如何在不耗尽内存的情况下对缺少记录的大型 xyz 文件进行网格化

python - 在 scipy 中按稀疏矩阵分组并返回矩阵

java - 15, 11 汉明码发生器矩阵