c - 高斯消除的内存管理

标签 c memory-management mpi numerical-methods

矩阵在处理器 0 中创建并分散到其他处理器。矩阵是对称的稠密矩阵。这就是它在处理器 0 中初始化的原因。

矩阵是这样创建的:

A=malloc(sizeof(double)*N*N);
for (i=0; i<N; i++)
    for(j=0; j<N; j++)
     A(i,j)=rand()%10; // The code will be changed.

A(i,j) 定义为:

#define A(i,j) A[i*N+j]

N 必须为 100,000 才能测试算法。

这里的问题是:如果 N=100,000,那么需要的内存大约是 76GB。您建议如何存储 A 矩阵?

PS:当 N<20.000 且集群是分布式内存系统(每个处理器 2GB RAM)时,算法运行良好

最佳答案

如果您按照评论中的说明这样做是为了进行缩放测试,那么 Oli Charlesworth 是完全正确的;你所做的任何事情都会使这成为一个苹果与橘子的比较,因为你的节点没有 76GB 可用。哪个好;使用 MPI 的重要原因之一是解决无法在一个节点上解决的问题。但是,如果试图将 76GB 的数据硬塞到一个处理器上,那么您所做的比较就没有任何意义。正如 Oli Charlesworth 和 caf 所提到的,通过各种方法,您可以使用磁盘而不是 RAM,但是您的 1 个处理器答案将无法直接与您从大量节点获得的适合 RAM 的数字进行比较,因此,您将需要做大量工作才能获得一个实际上没有任何意义的数字。

如果你想缩放这类问题的结果,你要么从问题确实适合的节点数量最少开始,然后在越来越多的处理器上获取数据,要么你做 weak scaling ,而不是 strong scaling 测试——您在增加处理器数量的同时保持每个处理器的工作量不变,而不是总工作量保持不变。

顺便说一下,无论您如何进行测量,如果正如 Oli Charlesworth 所建议的那样,您让每个处理器生成自己的数据而不是通过让秩 0 生成矩阵来产生串行瓶颈,那么您最终会得到更好的结果然后让所有的处理器接收他们的零件。

关于c - 高斯消除的内存管理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5851500/

相关文章:

c++ - Mastermind 求解器实现问题

c - 如何在循环中重用 MPI_Scatter 和 MPI_Gather

hadoop - MPI 数据挖掘库

c++ - 拔河: Divide set of n objects int to subsets

c - 内联汇编时如何防止GCC警告函数没有返回?

c++ - 如何创建生成 XML 并随后运行 DOS 命令的 C/C++ 程序?

java - 如何在Java中在特定内存中创建特定大小的对象?

c++ - C内存管理

c++ - 在 HPC 上部署 C++ (MPI) 时如何避免问题

c - 如何使用 POSIX 上的线程生成 [0,1] 之间的随机数