我正在尝试解决家庭作业问题以调试以下单元测试。
基本上主进程生成随机整数并将它们发送给子进程以检查素数,结果传回主进程,算法结束。
我知道应该用集体交流代替循环,但这是问题的不同部分。我想了解为什么我这里的这段代码会导致死锁。
来自阅读其他questions ,我知道发送/接收的数量应该相互匹配。但是,我看不出我的代码中情况并非如此。
当前的行为是找到素数,将其发送回主进程,此时程序只是挂起 - 直到使用 ctrl-C 手动取消。
我知道这不是解决这个问题的惯用方法,但我真的很想知道这种方法中的错误究竟在哪里。
谢谢!
TEST_CASE("3a - Finding prime numbers", "[MPI]" )
{
int rank, size;
MPI_Comm_rank(MPI_COMM_WORLD, &rank);
MPI_Comm_size(MPI_COMM_WORLD, &size);
// Random number generation
std::minstd_rand generator;
unsigned min(2342), max(12342340);
std::uniform_int_distribution<> distribution(min, max);
// candidates too big, one of the size values is the master node
std::vector<unsigned> candidates(size - 1);
// Main loop continues until a prime is found
int found_prime(0);
while (found_prime == 0) {
if (rank == 0) {
// Create some candidate numbers for each process to test
std::generate(candidates.begin(), candidates.end(),
[&]() { return distribution(generator); });
// Send one to each worker
for (int worker(1); worker < size; ++worker) {
int rc = MPI_Ssend(&candidates[worker - 1], 1, MPI_UNSIGNED,
worker, 0, MPI_COMM_WORLD);
REQUIRE(rc == MPI_SUCCESS);
}
// Receive whether it was prime
for (int worker(1); worker < size; ++worker) {
unsigned result;
int rc = MPI_Recv(&result, 1, MPI_UNSIGNED, worker, 0,
MPI_COMM_WORLD, MPI_STATUS_IGNORE);
REQUIRE(rc == MPI_SUCCESS);
if (result == 1) {
found_prime = candidates[worker - 1];
std::cout << "Worker " << worker << " found prime "
<< found_prime << std::endl;
}
}
} else {
// Receive the candidate to check
unsigned candidate;
int rc = MPI_Recv(&candidate, 1, MPI_UNSIGNED, 0, 0, MPI_COMM_WORLD,
MPI_STATUS_IGNORE);
REQUIRE(rc == MPI_SUCCESS);
// Do the check
unsigned is_prime = mp::IsPrime(candidate) ? 1 : 0;
// Return the result
rc = MPI_Ssend(&is_prime, 1, MPI_UNSIGNED, 0, 0, MPI_COMM_WORLD);
REQUIRE(rc == MPI_SUCCESS);
}
}
std::cout << "Finished" << rank << std::endl;
}
最佳答案
我对 MPI 一无所知,但在你的代码中,如果 rank != 0
,while 循环将永远无法退出,因为 found_prime
从未在 中设置>else
分支(并且 rank
也永远不会改变)。
编辑:
正如@DanielLangr 所说,奴隶将需要一种方法来发现没有更多的工作来退出(循环)。
关于c++ - MPI中点对点通信造成的死锁,使用循环从master发送给children,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55581194/