我对使用 MPI 例程相对较新,并且我很困惑为什么在下面的代码中我会根据我使用的节点数量得到不同的结果。
代码:
import numpy as np
from mpi4py import MPI
def MPI_sum(comm,x):
xsum = np.sum(x)
vals = comm.gather(xsum,root=0)
if rank == 0:
s = np.sum(vals)
s = comm.bcast(s,root=0)
return s
comm = MPI.COMM_WORLD
size = comm.Get_size()
datalen = 80000/size
x = np.zeros(datalen) + 1. + 1e-5
xsum = MPI_sum(comm,x)
if rank == 0:
print xsum - np.floor(xsum)
我使用 1 个节点和 2 个节点运行此代码。 我从1个节点得到的答案是:0.800000153016 我从2个节点得到的答案是:0.800000035219
是什么导致了这种差异?
(作为补充说明,我确实尝试将 MPI_sum 中的所有 x 数组数据传递给 root=0,然后对 root=0 求和,这给了我正确的答案;无论节点数量如何,输出都是相同的。但是将所有数据传递到一个节点对于我将要实现这一点的代码来说是不切实际的。)
感谢您的帮助!
最佳答案
观察到的效果是由浮点运算的非关联性引起的,并且并非特定于 MPI 应用程序,尽管后者由于问题域的划分而往往会更频繁地暴露它。观察以下内容以了解发生的情况:
>>> import numpy as np
>>> datalen = 80000
>>> x = np.zeros(datalen) + 1. + 1e-5
>>> xsum = np.sum(x)
>>> xsum - np.floor(xsum)
0.80000015301629901
>>> xsum = np.sum(x[:datalen/2]) + np.sum(x[datalen/2:])
>>> xsum - np.floor(xsum)
0.80000003521854524
换句话说,给定有限精度计算机,对整个数组求和与首先分别对数组的两半求和,然后对两个和求和不同,无论您是否使用 MPI 执行此操作(如您的代码)或串行(如我的示例)。
原因是每次两个 float 相加时都会发生最后一位舍入。随着时间的推移,人们会学会处理浮点运算的这些特性。有一些特殊的求和算法可以防止类似的影响,例如Kahan summation algorithm .
请注意,10-5 在任何有限精度二进制计算机上都不能完全表示,因为 log2(10-5) = - 5 x log2(10),10的二进制对数是无理数。
关于python - MPI4PY:不同数量的节点返回不同的结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22874513/