mpi - 当一个等级崩溃时,OpenMPI 不会杀死其他等级

标签 mpi openmpi

我有一些示例代码:

#include <mpi.h>
#include <stdio.h>
#include <stdlib.h>
#include <signal.h>

int main(int argc, char** argv) {
  // Initialize the MPI environment
  MPI_Init(&argc, &argv);
  // Find out rank, size
  int world_rank;
  MPI_Comm_rank(MPI_COMM_WORLD, &world_rank);
  int world_size;
  MPI_Comm_size(MPI_COMM_WORLD, &world_size);

  // We are assuming at least 2 processes for this task
  if (world_size < 2) {
    fprintf(stderr, "World size must be greater than 1 for %s\n", argv[0]);
    MPI_Abort(MPI_COMM_WORLD, 1);
  }

  int number;
  if (world_rank == 1) {
    number = -1;
    MPI_Send(&number, 1, MPI_INT, 0, 0, MPI_COMM_WORLD);
    raise(SIGSEGV);
  } else if (world_rank == 0) {
    MPI_Recv(&number, 1, MPI_INT, 1, 0, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
    printf("Process 0 received number %d from process 1\n", number);
  }

  printf("rank %d finalize\n", world_rank);
  MPI_Finalize();
}

Rank 1 发出模拟崩溃的信号。在 raise() 之后,排名 1 退出。但是,rank 0 stills 会打印 rank 0 Finalize

有什么方法可以知道在这种情况下,等级 0 是否会崩溃?当rank 1崩溃时,是否可以让mpirun杀死rank 0?

最佳答案

请注意,您的问题中存在竞争条件,mpirun 可能没有足够的时间注意到任务 1 崩溃并在打印消息之前终止任务 0。

您可以使用以下选项强制 Open MPI 在检测到崩溃后立即终止所有任务

mpirun -mca orte_abort_on_non_zero_status 1 ...

关于mpi - 当一个等级崩溃时,OpenMPI 不会杀死其他等级,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50273012/

相关文章:

c - MPI_将素数数组收集到一个数组中

c++ - 在 MPI 中如何广播 C++ vector ?

c - 如何制作/配置 MPI 项目以在多个进程上运行?

c - 使用 openmpi 初始化一个数组一次

c - MPI - C 语言中的列类型问题

fortran - 使用 MPI IO 编写多个分布式数组

c - ld : undefined reference to symbol 'log2@@GLIBC_2.2.5'

c++ - mpirun 不工作并要求将 TMPDIR 变量更改为/tmp

c++ - 为什么在尝试实现 OpenMPI 时设置单元数

c++ - MPI、C、派生类型、 vector 结构?