c - 高斯消除的内存管理

矩阵在处理器 0 中创建并分散到其他处理器。矩阵是对称的稠密矩阵。这就是它在处理器 0 中初始化的原因。

矩阵是这样创建的:

A=malloc(sizeof(double)*N*N);
for (i=0; i<N; i++)
    for(j=0; j<N; j++)
     A(i,j)=rand()%10; // The code will be changed.

A(i,j) 定义为:

#define A(i,j) A[i*N+j]

N 必须为 100,000 才能测试算法。

这里的问题是:如果 N=100,000，那么需要的内存大约是 76GB。您建议如何存储 A 矩阵？

PS:当 N<20.000 且集群是分布式内存系统(每个处理器 2GB RAM)时，算法运行良好

最佳答案

如果您按照评论中的说明这样做是为了进行缩放测试，那么 Oli Charlesworth 是完全正确的；你所做的任何事情都会使这成为一个苹果与橘子的比较，因为你的节点没有 76GB 可用。哪个好；使用 MPI 的重要原因之一是解决无法在一个节点上解决的问题。但是，如果试图将 76GB 的数据硬塞到一个处理器上，那么您所做的比较就没有任何意义。正如 Oli Charlesworth 和 caf 所提到的，通过各种方法，您可以使用磁盘而不是 RAM，但是您的 1 个处理器答案将无法直接与您从大量节点获得的适合 RAM 的数字进行比较，因此，您将需要做大量工作才能获得一个实际上没有任何意义的数字。

如果你想缩放这类问题的结果，你要么从问题确实适合的节点数量最少开始，然后在越来越多的处理器上获取数据，要么你做 weak scaling ，而不是 strong scaling 测试——您在增加处理器数量的同时保持每个处理器的工作量不变，而不是总工作量保持不变。

顺便说一下，无论您如何进行测量，如果正如 Oli Charlesworth 所建议的那样，您让每个处理器生成自己的数据而不是通过让秩 0 生成矩阵来产生串行瓶颈，那么您最终会得到更好的结果然后让所有的处理器接收他们的零件。

关于c - 高斯消除的内存管理，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5851500/

c - 高斯消除的内存管理

上一篇：C:为什么我的二分查找会陷入死循环？

下一篇：c - 修改整数数组中的整数