c++ - 如果可执行文件在两个或多个节点上运行,为什么无法看到环境变量?

标签 c++ environment-variables mpi pbs torque

我正在使用 MPI 用 C++ 编写一个程序(我将其称为“启动器”)来“生成”第二个可执行文件(“从属程序”)。根据集群可用于启动器的节点数量,它将在每个节点上启动从属设备,并且从属设备也将通过 MPI 与启动器进行通信。当从站完成其数学运算后,它会告诉启动器该节点现在可用,并且启动器将另一个从站生成到空闲节点。重点是在一组异构机器上运行 1000 个独立计算,这些计算依赖于第二个可执行文件。

这在我自己的计算机上运行,​​我在其中创建了一个“假”机器文件(或主机文件),为程序提供了两个节点:localhost 和 localhost。发射器产生两个从属设备,当其中一个结束时,另一个从属设备就会启动。这告诉我生成过程工作正常。

当我将它移动到我实验室的集群时(使用 Torque/maui 来管理它),如果我要求 1(一)个节点,它也可以工作。如果我要求更多,我会得到一个缺少库的错误(准确地说是 libimf.so。来自英特尔编译器的库)。该库就在那里,节点可以看到它,因为如果我只要求一个节点,程序就会运行。

我的 PBS 看起来像这样:

#!/bin/bash
#PBS -q small 
#PBS -l nodes=1:ppn=8:xeon
#PBS -l walltime=1:00:00
#PBS -N MyJob
#PBS -V 

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/mpich2.shared.exec/lib/:/opt/intel/composerxe-2011.3.174/compiler/lib/intel64/:/usr/local/boost/lib/

log_file="output_pbs.txt"

cd $PBS_O_WORKDIR

echo "Beginning PBS script." > $log_file

echo "Executing on hosts ($PBS_NODEFILE): " >> $log_file
cat $PBS_NODEFILE >> $log_file

echo "Running your stuff now!" >> $log_file

# mpiexec is needed in order to let "launcher" call MPI_Comm_spawn.
/usr/local/mpich2.shared.exec/bin/mpiexec -hostfile $PBS_NODEFILE -n 1 /home/user/launhcer --hostfile $PBS_NODEFILE -r 1 >> $log_file 2>&1

echo "Fim do pbs." >> $log_file

当我尝试两个或更多节点时,启动器不会生成任何可执行文件。 我得到这样的输出:

Beginning PBS script.
Executing on hosts (/var/spool/torque/aux//2742.cluster): 
node3
node3
node3
node3
node3
node3
node3
node3
node2
node2
node2
node2
node2
node2
node2
node2
Running your stuff now!

(Bla bla bla from launcher initialization)

Spawning!
/usr/local/mpich2.shared.exec/bin/hydra_pmi_proxy: error while loading shared libraries: libimf.so: cannot open shared object file: No such file or directory

我在邮件列表中发现另一个人也遇到了与我类似的问题,但没有解决方案。 (http://lists.mcs.anl.gov/pipermail/mpich-discuss/2011-July/010442.html)。唯一的答案建议尝试查找节点是否可以看到该库(如果存储库的目录已安装在节点上),所以我尝试了

ssh node2 ls/opt/intel/composerxe-2011.3.174/compiler/lib/intel64/libimf.so >> $log_file

在我的 PBS 脚本中,lib 存在于节点可以看到的文件夹中。

在我看来,torque/maui 似乎没有将环境变量导出到所有节点(尽管我不知道为什么不会),所以当我尝试使用 MPI_Spawn 在另一个节点中运行另一个可执行文件时节点,它找不到该库。 这有任何意义吗?如果是这样,您能建议一个解决方案吗? 谁能提供其他想法吗? 提前致谢, 马塞洛

编辑:

按照答案之一的建议,我安装了 OpenMPI 以使用 mpiexec 测试选项“-x VARNAME”。在 PBS 脚本中,我将执行行更改为以下内容:

/usr/local/openmpi144/bin/mpiexec -x LD_LIBRARY_PATH -hostfile $PBS_NODEFILE -n 1 /var/dipro/melomcr/GSAFold_2/gsafold --hostfile $PBS_NODEFILE -r 1 >> $log_file 2>&1

但收到以下错误消息:

[node5:02982] [[3837,1],0] ORTE_ERROR_LOG: A message is attempting to be sent to a process whose contact information is unknown in file rml_oob_send.c at line 105
[node5:02982] [[3837,1],0] could not get route to [[INVALID],INVALID]
[node5:02982] [[3837,1],0] ORTE_ERROR_LOG: A message is attempting to be sent to a process whose contact information is unknown in file base/plm_base_proxy.c at line 86

从互联网上我可以了解到,此错误通常来自多次执行 mpiexec,例如 /path/to/mpiexec mpiexec -n 2 my_program ,这不是我的情况。

我相信我应该补充一点,生成的“从属”程序使用端口与“启动器”程序进行通信。启动器使用 MPI_Open_port 和 MPI_Comm_accept 打开一个端口,然后当从机运行 MPI_Comm_connect 时等待从机程序连接。

就像我上面所说的,当我只要求一个节点时,所有这些都有效(使用 MPICH2)。使用 OpenMPI,当我仅请求一个节点时,我甚至会收到上述错误。

最佳答案

你是对的。远低于集群软件的远程调用不会传输环境变量。

关于c++ - 如果可执行文件在两个或多个节点上运行,为什么无法看到环境变量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12252490/

相关文章:

C++ 链接器无法解析来自其他源文件 *.obj 文件的外部符号(再次;)。 (VC++表达)

读取文件后提取子 vector 时出现 C++ 错误

linux - 有一个显示当前日期 zsh 的环境变量

python - 如何在 FreeBSD 中默认设置 Python 版本?

c++ - 具有类型和模板模板参数的模板类中类型参数的部分特化

c++ - C++比较 vector 和列表

node.js - 无法使用任何环境变量

python - Mpi4py mpi_test 总是返回 false

c - 搜索/等待 MS-MPI 中的任何传输

c++ - 在 c 中调用 MPI_Finalize() 的段错误