sungridengine - SGEhold_jid 并捕获失败的作业

标签 sungridengine

我有一个脚本,它提交多个作业以在 SGE 队列上并行运行,还有另一个收集脚本,在该作业列表完成时执行。我使用 -hold_jid wc_job_list 在并行作业运行时保持收集脚本的执行。

我刚刚注意到有时一些并行作业会失败,但收集脚本仍然运行。该文档指出:

If any of the referenced jobs exits with exit code 100, the submitted job will remain ineligible for execution.

如何捕获并行失败作业的退出状态,以便在其中任何作业因任何原因失败时,收集脚本不会执行或给出错误消息?

最佳答案

如果是 BASH,您可以解析程序的退出状态(可以引用为 $?),如果不是 0 (这是正常终止的退出状态),在作业脚本末尾调用exit 100

这样做的问题是,您的作业将以状态 Eqw 保留在队列中,并且必须手动删除。

更新:对于您设置为 Eqw 的每项作业,您的管理员都会收到一封电子邮件...

关于sungridengine - SGEhold_jid 并捕获失败的作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18875136/

相关文章:

parallel-processing - 启用没有时间限制的 Univa Grid Engine 资源预留

jobs - 如何从 SGE 获取失败的作业列表

linux - 确切地说,为什么 uname -m 在 Sun Grid Engine (SGE) 运行时会报告错误的体系结构?

amazon-web-services - Ubuntu CfnCluster 镜像中的计算节点未执行的任务

arrays - $SGE_TASK_ID 未通过 qsub 数组网格作业进行设置

python sge api提交到特定节点

linux - 在 SGE 作业中使用集群上的 tee 对 SIGTERM 进行故障排除

java - MPI、Sungrid 与 JPPF?

python - 上金所: How to see the output in real time

cluster-computing - 让 SGE jobid 创建管道