hpc - 在 SLURM 中提取过去工作的详细信息

标签 hpc slurm

在 PBS 中,可以使用 qstat -f 查询特定作​​业并获取(全部?)信息和详细信息以重现该作业:

# qstat -f 1234
Job Id: 1234.login
    Job_Name = job_name_here
    Job_Owner = user@pbsmaster
    ...
    Resource_List.select = 1:ncpus=24:mpiprocs=24
    Resource_List.walltime = 23:59:59
    ...
    Variable_List = PBS_O_HOME=/home/user,PBS_O_LANG=en_US.UTF-8,
    PBS_O_LOGNAME=user,...
    etime = Mon Apr 20 16:38:27 2020
    Submit_arguments = run_script_here --with-these flags

我如何从 SLURM 中提取相同的信息?
scontrol show job %j 仅适用于当前正在运行的作业或 5 分钟前终止的作业。

编辑:我目前正在使用以下命令来获取一些信息,但它不如 qstat -f 完整:

sacct -u $USER \
      -S 2020-05-13 \
      -E 2020-05-15 \
      --format "Account,JobID%15,JobName%20,State,ExitCode,Submit,CPUTime,MaxRSS,ReqMem,MaxVMSize,AllocCPUs,ReqTres%25"

..通常通过管道输入|(head -n 2; grep -v COMPLETED) |sort -k12来仅检查失败的运行。

最佳答案

您可以获得在特定日期之前开始的所有作业的列表,如下所示:

sacct --starttime 2020-01-01

然后选择您感兴趣的作业(例如作业 1234)并使用 sacct 打印详细信息:

sacct -j 1234 --format=User,JobID,Jobname,partition,state,time,start,end,elapsed,MaxRss,MaxVMSize,nnodes,ncpus,nodelist

参见here--helpformat 下查看可用字段的完整列表。

关于hpc - 在 SLURM 中提取过去工作的详细信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61344330/

相关文章:

optimization - 为台式机和 super 计算机编写的代码有什么区别?

performance - 使用 MPI_PACK() 的优势

.net - F# 作为 HPC 语言

hpc - 错误 : cgroup namespace 'freezer' not mounted. 中止

slurm - 使 sacct 不截断 SLURM_ARRAY_TASK_ID

slurm - 当任何作业完成时,SLURM 能否触发脚本(由前端 SLURM 用户实现)?

c - 并行二分查找的性能比串行版本差

c++ - STL 容器速度与数组

parallel-processing - SLURM `srun` 与 `sbatch` 及其参数

cluster-computing - slurm:在日志文件中生成统计作业