我读了this到达here ,所以现在我认为我应该(如果不是这样,请告诉我)重写代码
{
int i = 0;
char hostname[256];
gethostname(hostname, sizeof(hostname));
printf("PID %d on %s ready for attach\n", getpid(), hostname);
fflush(stdout);
while (0 == i)
sleep(5);
}
在 Fortran 中。来自 this answer我知道在 Fortran 中我可以简单地使用 MPI_Get_processor_name
代替 gethostname
。其他一切都很简单,但 flush
。怎么样?
我应该把它放在哪里?在主程序之后MPI_Init
?
进而?我该怎么办?
关于编译选项,我引用了this并使用 -v -da -Q
作为 mpifort
包装器的选项。
This solution不适合我的情况,因为我至少需要在 27 个进程上运行该程序,所以我只想检查一个进程。
最佳答案
最简单的方法:
我实际上经常做的是在本地运行 MPI 作业并查看它的作用。没有任何上述代码。然后,如果它挂起,我使用 top
找出进程的 PID
,通常可以很容易地从 PID 中猜出哪个排名(它们往往是连续的,并且最低的是等级 0)。 0 级以下是进程 1641,比它们是 1 级 pid 1642 等等......
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
1642 me 20 0 167328 7716 5816 R 100.0 0.047 0:25.02 a.out
1644 me 20 0 167328 7656 5756 R 100.0 0.047 0:25.04 a.out
1645 me 20 0 167328 7700 5792 R 100.0 0.047 0:24.97 a.out
1646 me 20 0 167328 7736 5836 R 100.0 0.047 0:25.00 a.out
1641 me 20 0 167328 7572 5668 R 99.67 0.046 0:24.95 a.out
然后我只执行 gdb -pid
并检查进程中的堆栈和局部变量。 (在 GDB 控制台中使用 help stack
)
最重要的是得到回溯,所以在控制台打印bt
就可以了。
这在检查死锁时会很有效。当你必须在某个特定的地方停下来时不太好。然后你必须尽早附加调试器。
您的代码:
我认为在 Fortran 中不需要刷新。我认为至少在我使用的编译器中,Fortran write
和 print
flush 是必要的。
但是你绝对可以使用flush
语句
use iso_fortran_env
flush(output_unit)
只需在打印hostname
和pid
的write
之后放置flush。但正如我所说,我将从单独打印开始。
你要做的是登录到该节点并使用类似的东西将 gdb 附加到正确的进程
gdb -pid 12345
对于 sleep ,您可以使用许多编译器中提供的非标准 sleep
内在子例程或编写您自己的子例程。
是在 MPI_Init
之前还是之后?如果要打印排名,则必须在之后。同样对于使用 MPI_Get_processor_name
它必须在之后。通常建议在您的程序中尽早调用 MPI_Init
。
代码是这样的
use mpi
implicit none
character(MPI_MAX_PROCESSOR_NAME) :: hostname
integer :: rank, ie, pid, hostname_len
integer, volatile :: i
call MPI_Init(ie)
call MPI_Get_processor_name(hostname, hostname_len, ie)
!non-standard extension
pid = getpid()
call MPI_Comm_rank(MPI_COMM_WORLD, rank, ie)
write(*,*) "PID ", pid, " on ", trim(hostname), " ready for attach is world rank ", rank
!this serves to block the execution at a specific place until you unblock it in GDB by setting i=0
i = 1
do
!non-standard extension
call sleep(1)
if (i==0) exit
end do
end
重要说明:如果您使用优化进行编译,编译器会发现 i==0
永远不会为真,并且会完全删除检查。您必须降低优化或将 i
声明为 volatile
。 Volatile 意味着该值可以随时更改,编译器必须从内存中重新加载其值以进行检查。这需要 Fortran 2003。
附加正确的进程:
上面的代码会打印,例如
> mpif90 -ggdb mpi_gdb.f90
> mpirun -n 4 ./a.out
PID 2356 on linux.site ready for attach is world rank 1
PID 2357 on linux.site ready for attach is world rank 2
PID 2358 on linux.site ready for attach is world rank 3
PID 2355 on linux.site ready for attach is world rank 0
在上面他们看起来像
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
2355 me 20 0 167328 7452 5564 R 100.0 0.045 1:42.55 a.out
2356 me 20 0 167328 7428 5548 R 100.0 0.045 1:42.54 a.out
2357 me 20 0 167328 7384 5500 R 100.0 0.045 1:42.54 a.out
2358 me 20 0 167328 7388 5512 R 100.0 0.045 1:42.51 a.out
你只需选择你想要的排名并执行
gdb -pid 2355
附加等级 0 等等。当然,在不同的终端窗口中。
然后你会得到类似的东西
MAIN__ () at mpi_gdb.f90:26
26 if (i==0) exit
(gdb) info locals
hostname = 'linux.site', ' ' <repeats 246 times>
hostname_len = 10
i = 1
ie = 0
pid = 2457
rank = 0
(gdb) set var i = 0
(gdb) cont
Continuing.
[Inferior 1 (process 2355) exited normally]
关于c++ - 使用 GDB 在 Fortran 中调试 MPI 程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38699238/