C++:奇怪的指针损坏错误

标签 c++ debugging pointers mpi

我遇到以下情况:我编写了一些简短的 MPI 测试代码,以便找出在我的代码中发送和接收操作的哪种组合效果最好。

该代码在我自己的计算机上运行良好(测试了 8 个进程),但是一旦我在我正在处理的集群上运行它,我就会收到一个损坏或双重释放指针的巨大错误输出,这是输出:http://pastebin.com/pXTRSf89

我在我的代码中所做的如下:我调用我的通信函数 100K 次并测量时间。此功能如下所示。我发现,错误总是发生在同一次迭代中(大约 6K 左右)。然而,报告的 processorID 确实发生了变化。即使我使用 64 个 proc 而不是 8 个,迭代也是相同的。问题是:我完全不知道,可能出了什么问题,尤其是因为没有释放或分配指针。

void communicateGrid(int level, real* grid, const Subdomain& subdomain, std::vector<TimeMap>& tm_) {
    tm_[level]["CommGrid"].start();

    MPI_Status status[2];
    MPI_Request request[2];

    // x 
    MPI_Isend(&grid[getIndexInner(level, 1, 1, 1) + innerGridpoints_[level][0] - numOuterGridpoints_[level]], 1, mpiTypes_[level * 4 + 1], subdomain.upperNeighbors[0], 0, MPI_COMM_WORLD, &request[0]);
    MPI_Isend(&grid[getIndexInner(level, 1, 1, 1)], 1, mpiTypes_[level * 4 + 1], subdomain.lowerNeighbors[0], 1, MPI_COMM_WORLD, &request[1]);

    MPI_Recv(&grid[getIndexInner(level, 1,1,1) + innerGridpoints_[level][0]], 1, mpiTypes_[level * 4 + 1], subdomain.upperNeighbors[0], 1, MPI_COMM_WORLD, &status[0]);
    MPI_Recv(&grid[getIndexInner(level, 1,1,1) - numOuterGridpoints_[level]], 1, mpiTypes_[level * 4 + 1], subdomain.lowerNeighbors[0], 0, MPI_COMM_WORLD, &status[1]);

    //y 
    MPI_Isend(&grid[getIndex(level, 0, innerGridpoints_[level][1], 0)], 1, mpiTypes_[level * 4 + 2], subdomain.upperNeighbors[1], 2, MPI_COMM_WORLD, &request[0]);
    MPI_Isend(&grid[getIndex(level, 0, numOuterGridpoints_[level], 0)], 1, mpiTypes_[level * 4 + 2], subdomain.lowerNeighbors[1], 3, MPI_COMM_WORLD, &request[1]);

    MPI_Recv(&grid[getIndex(level, 0, innerGridpoints_[level][1] + numOuterGridpoints_[level], 0)], 1, mpiTypes_[level * 4 + 2], subdomain.upperNeighbors[1], 3, MPI_COMM_WORLD, &status[0]);
    MPI_Recv(grid, 1, mpiTypes_[level * 4 + 2], subdomain.lowerNeighbors[1], 2, MPI_COMM_WORLD, &status[1]);

    // z
    MPI_Isend(&grid[getIndex(level, 0, 0, innerGridpoints_[level][2])], 1, mpiTypes_[level * 4 + 3], subdomain.upperNeighbors[2], 4, MPI_COMM_WORLD, &request[0]);
    MPI_Isend(&grid[getIndex(level, 0, 0, numOuterGridpoints_[level])], 1, mpiTypes_[level * 4 + 3], subdomain.lowerNeighbors[2], 5, MPI_COMM_WORLD, &request[1]);

    MPI_Recv(&grid[getIndex(level, 0, 0, numOuterGridpoints_[level] + innerGridpoints_[level][2])], 1, mpiTypes_[level * 4 + 3], subdomain.upperNeighbors[2], 5, MPI_COMM_WORLD, &status[0]);
    MPI_Recv(grid, 1, mpiTypes_[level * 4 + 3], subdomain.lowerNeighbors[2], 4, MPI_COMM_WORLD, &status[1]);

    tm_[level]["CommGrid"].stop();
}

mpiTypes_ 是 MPI_Datatype* 类型的全局变量,innerGridpoints_ 和 numOuterGridpoints_ 也是全局变量(我知道这不是一个好的编码风格,但我只是为了计时而采用它)。 我很确定我的数据类型是正确的,因为它们在另一种通信功能设置中工作(例如 Irecv 后跟发送)。

最后说明:我只是尝试只用一个进程运行它。然后出现如下错误:

Rank 0 [Mon Apr 22 02:11:23 2013] [c0-0c1s3n0] Fatal error in PMPI_Isend: Internal MPI error!, error stack: PMPI_Isend(148): MPI_Isend(buf=0x2aaaab7b531c, count=1, dtype=USER, dest=0, tag=1, MPI_COMM_WORLD, request=0x7fffffffb4d4) failed (unknown)(): Internal MPI error! _pmiu_daemon(SIGCHLD): [NID 00070] [c0-0c1s3n0] [Mon Apr 22 02:11:23 2013] PE RANK 0 exit signal Aborted

同样,这只发生在集群上,但在我的机器上有效。

我很高兴我可以检查任何东西或可能出现错误的地方! 谢谢

最佳答案

您必须等待或测试 MPI_Isend() 创建的那些 MPI 请求,否则您将泄漏内部资源,并最终崩溃,这就是正在发生的事情。

Jeff Squyres 在他的 blog post at Cisco 中说得很好.

知道那些 Isends 正在完成,但 MPI 库无法知道这一点并清理由那些 MPI_Request 分配和指向的资源。需要多少资源和需要什么样的资源取决于很多因素,包括底层网络连接(例如,可以占用稀缺的无限带宽资源),所以它在你自己的机器上工作而不在集群上工作并不奇怪.

你可以通过添加来解决这个问题

MPI_Waitall(2, request,  status);

MPI_Isend/MPI_Recv() 的每个阶段之后。

这不仅是清理资源所必需的,实际上也是确保具有非阻塞请求的程序的正确性所必需的。

关于C++:奇怪的指针损坏错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16137714/

相关文章:

c++ - 新表达式会返回一个指向数组的指针吗?

通过将指针传递给 c 中的函数来创建二维数组

c - 如何在 C 中接收 connect-n 的输入

c++ - 编译时间常数的确定

c++ - Win32 无法从共享内存获取数据

javascript - 老鼠! WebGL 遇到障碍——如何调试?

jquery - Firebug 在调试时跳过 $(document).ready(function() 之后的行

c++ - 使用宏声明运算符

c++ - 耦合比算法

c++ - 从python调试VS2010中的c++ dll