slurm - 我可以取消 slurm 中的阵列作业吗?

标签 slurm

我有一堆作业在 slurm 中作为数组作业运行:

123_[1-500] PD my_job 0:00 me
123_2       R  my_job 9:99 me
123_3       R  my_job 9:99 me
123_4       R  my_job 9:99 me
123_5       R  my_job 9:99 me
...

当我阅读 scancel 上的手册页时,似乎表明如果我执行 scancel 123它将停止一切

我错了,还是有另一种方法可以停止阵列工作?我希望已经在运行的作业完成,我只是不想让 123 创建更多的作业,而且我真的不想弄清楚如果我不小心中途杀死了哪些作业需要重新运行

最佳答案

您可以发出 scancel附加 --state标签:

 scancel --state=PENDING 123

或者,简而言之:
 scancel -t PD 123

这只会取消 123 阵列中挂起的作业,而将运行已启动的作业。

关于slurm - 我可以取消 slurm 中的阵列作业吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47318252/

相关文章:

cluster-computing - 如何在脚本工作(以srun开头)完全完成之前保留脚本?

slurm - 关于运行 4 个并行作业的替代方法的问题

bash - 在设置工作目录之前,如何为 Slurm 作业创建新目录?

slurm - 如何获得 Slurm 作业的总 CPU 使用率?

SLURM 根据 GRES 自动限制内存/CPU 使用

bash - 在 SLURM 之外使用 srun

r - Slurm群集中的R代码无法正确读取

jobs - SLURM 中的状态 "CG"是什么意思?

linux - 如何使用 SLURM 获取 GPU (GRES) 分配报告

linux - 是否所有由 Slurm 作业启动的进程都在取消作业时终止?