linux - 更改正在运行的 Slurm 作业的 CPU 计数

我有一个 SLURM 集群和一个正在运行的作业，我已在其中请求了 60 个线程

#SBATCH --cpus-per-task=60

(我正在使用 cgroups 在节点上共享线程)

我现在想将线程数减少到 30。

$ scontrol update jobid=274332 NumCPUs=30
Job is no longer pending execution for job 274332

该作业仍分配了 60 个线程。

$ scontrol show job 274332
JobState=RUNNING Reason=None Dependency=(null)
NumNodes=1 NumCPUs=60 NumTasks=1 CPUs/Task=60 ReqB:S:C:T=0:0:*:*

如何才是正确的实现方式？

谢谢!

最佳答案

在当前版本的 Slurm 中，scontrol 只允许减少分配给正在运行的作业的节点数量，但不能减少 CPU(或内存)的数量。

FAQ说:

Use the scontrol command to change a job's size either by specifying a new node count (NumNodes=) for the job or identify the specific nodes (NodeList=) that you want the job to retain.

(强调我的)

关于linux - 更改正在运行的 Slurm 作业的 CPU 计数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57803401/

上一篇：linux - 任务退出后从cgroup中移除

下一篇：linux - docker compose : Error while loading shared libraries: libz. so.1:无法从共享对象映射段:不允许操作

相关文章：

c++ - 如何编译我的 C++ 项目？

git 存储库在从 linux 中的 jenkins 连接时出现 403 错误

linux - 在 linux HPC 上显示命令历史记录

Laravel 项目，只有主页 View 有效，其他 View 给出 404 not found

ubuntu - 在 ubuntu 的集群上运行你的程序

c++ - 我有 12 个 CPU，1 个插槽，每个插槽 6 个内核，每个内核 2 个线程 - 这些信息如何对应于 MPI 和 OpenMP 的并行化？

r - csv 文件，或制表符分隔文件，或任何文件

linux - grep 当前日期到 7 天前没有具体日期

linux - 尝试在 OpenShift : cannot patch GhostDriver so that it can bind on the server IP address 上运行 PhantomJS

apache-kafka - Kafka 生产者/消费者打开了太多的文件描述符