c++ - 使用 GDB 在 Fortran 中调试 MPI 程序

标签 c++ debugging fortran gdb mpi

我读了this到达here ,所以现在我认为我应该(如果不是这样,请告诉我)重写代码

{
    int i = 0;
    char hostname[256];
    gethostname(hostname, sizeof(hostname));
    printf("PID %d on %s ready for attach\n", getpid(), hostname);
    fflush(stdout);
    while (0 == i)
        sleep(5);
}

在 Fortran 中。来自 this answer我知道在 Fortran 中我可以简单地使用 MPI_Get_processor_name 代替 gethostname。其他一切都很简单,但 flush。怎么样?

我应该把它放在哪里?在主程序之后MPI_Init? 进而?我该怎么办?

关于编译选项,我引用了this并使用 -v -da -Q 作为 mpifort 包装器的选项。

This solution不适合我的情况,因为我至少需要在 27 个进程上运行该程序,所以我只想检查一个进程。

最佳答案

最简单的方法:

我实际上经常做的是在本地运行 MPI 作业并查看它的作用。没有任何上述代码。然后,如果它挂起,我使用 top 找出进程的 PID,通常可以很容易地从 PID 中猜出哪个排名(它们往往是连续的,并且最低的是等级 0)。 0 级以下是进程 1641,比它们是 1 级 pid 1642 等等......

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU  %MEM     TIME+ COMMAND                                                                                                                                         
 1642 me        20   0  167328   7716   5816 R 100.0 0.047   0:25.02 a.out                                                                                                                                           
 1644 me        20   0  167328   7656   5756 R 100.0 0.047   0:25.04 a.out                                                                                                                                           
 1645 me        20   0  167328   7700   5792 R 100.0 0.047   0:24.97 a.out                                                                                                                                           
 1646 me        20   0  167328   7736   5836 R 100.0 0.047   0:25.00 a.out                                                                                                                                           
 1641 me        20   0  167328   7572   5668 R 99.67 0.046   0:24.95 a.out 

然后我只执行 gdb -pid 并检查进程中的堆栈和局部变量。 (在 GDB 控制台中使用 help stack)

最重要的是得到回溯,所以在控制台打印bt就可以了。

这在检查死锁时会很有效。当你必须在某个特定的地方停下来时不太好。然后你必须尽早附加调试器。


您的代码:

我认为在 Fortran 中不需要刷新。我认为至少在我使用的编译器中,Fortran writeprint flush 是必要的。

但是你绝对可以使用flush语句

use iso_fortran_env

flush(output_unit)

只需在打印hostnamepidwrite 之后放置flush。但正如我所说,我将从单独打印开始。

你要做的是登录到该节点并使用类似的东西将 gdb 附加到正确的进程

gdb -pid 12345

对于 sleep ,您可以使用许多编译器中提供的非标准 sleep 内在子例程或编写您自己的子例程。

是在 MPI_Init 之前还是之后?如果要打印排名,则必须在之后。同样对于使用 MPI_Get_processor_name 它必须在之后。通常建议在您的程序中尽早调用 MPI_Init

代码是这样的

  use mpi

  implicit none

  character(MPI_MAX_PROCESSOR_NAME) :: hostname

  integer :: rank, ie, pid, hostname_len

  integer, volatile :: i

  call MPI_Init(ie)

  call MPI_Get_processor_name(hostname, hostname_len, ie)

  !non-standard extension
  pid = getpid()

  call MPI_Comm_rank(MPI_COMM_WORLD, rank, ie)

  write(*,*) "PID ", pid,  " on ",  trim(hostname), " ready for attach is world rank ", rank

  !this serves to block the execution at a specific place until you unblock it in GDB by setting i=0
  i = 1
  do
    !non-standard extension
    call sleep(1)
    if (i==0) exit
  end do

end

重要说明:如果您使用优化进行编译,编译器会发现 i==0 永远不会为真,并且会完全删除检查。您必须降低优化或将 i 声明为 volatile。 Volatile 意味着该值可以随时更改,编译器必须从内存中重新加载其值以进行检查。这需要 Fortran 2003。

附加正确的进程:

上面的代码会打印,例如

> mpif90 -ggdb mpi_gdb.f90 
> mpirun -n 4 ./a.out

 PID         2356  on linux.site ready for attach is world rank            1
 PID         2357  on linux.site ready for attach is world rank            2
 PID         2358  on linux.site ready for attach is world rank            3
 PID         2355  on linux.site ready for attach is world rank            0

在上面他们看起来像

 PID USER      PR  NI    VIRT    RES    SHR S  %CPU  %MEM     TIME+ COMMAND                                                                                                                                         
 2355 me        20   0  167328   7452   5564 R 100.0 0.045   1:42.55 a.out                                                                                                                                           
 2356 me        20   0  167328   7428   5548 R 100.0 0.045   1:42.54 a.out                                                                                                                                           
 2357 me        20   0  167328   7384   5500 R 100.0 0.045   1:42.54 a.out                                                                                                                                           
 2358 me        20   0  167328   7388   5512 R 100.0 0.045   1:42.51 a.out

你只需选择你想要的排名并执行

gdb -pid 2355

附加等级 0 等等。当然,在不同的终端窗口中。

然后你会得到类似的东西

MAIN__ () at mpi_gdb.f90:26
26          if (i==0) exit

(gdb) info locals
hostname = 'linux.site', ' ' <repeats 246 times>
hostname_len = 10
i = 1
ie = 0
pid = 2457
rank = 0

(gdb) set var i = 0

(gdb) cont
Continuing.
[Inferior 1 (process 2355) exited normally]

关于c++ - 使用 GDB 在 Fortran 中调试 MPI 程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38699238/

相关文章:

c# - 如何将方法返回的接口(interface)变量转换为对象?

c++ - 我在使用链表的堆栈上出错。无法打印数字循环。 (C++)

linux - Fortran LAPACK : high CPU %sys usage with DSYEV - no parallelization - normal?

arrays - Fortran 字符数组

c++ - 在 C++ 中尝试/抛出/捕获 : what's wrong with my code?

c++ - 无法从继承类调用 assert()

flash - 调试导致 Flash 插件崩溃的 swf

debugging - Keras fit 和 fit_generator 返回完全不同的结果

.net - VS2015尝试运行应用程序时出错: Invalid Pointer

c - 如何将 C_FLOAT 数组传递给 Fortran 子例程