在 PBS 中,可以使用 qstat -f
查询特定作业并获取(全部?)信息和详细信息以重现该作业:
# qstat -f 1234
Job Id: 1234.login
Job_Name = job_name_here
Job_Owner = user@pbsmaster
...
Resource_List.select = 1:ncpus=24:mpiprocs=24
Resource_List.walltime = 23:59:59
...
Variable_List = PBS_O_HOME=/home/user,PBS_O_LANG=en_US.UTF-8,
PBS_O_LOGNAME=user,...
etime = Mon Apr 20 16:38:27 2020
Submit_arguments = run_script_here --with-these flags
我如何从 SLURM 中提取相同的信息?
scontrol show job %j
仅适用于当前正在运行的作业或 5 分钟前终止的作业。
编辑:我目前正在使用以下命令来获取一些信息,但它不如 qstat -f
完整:
sacct -u $USER \
-S 2020-05-13 \
-E 2020-05-15 \
--format "Account,JobID%15,JobName%20,State,ExitCode,Submit,CPUTime,MaxRSS,ReqMem,MaxVMSize,AllocCPUs,ReqTres%25"
..通常通过管道输入|(head -n 2; grep -v COMPLETED) |sort -k12
来仅检查失败的运行。
最佳答案
您可以获得在特定日期之前开始的所有作业的列表,如下所示:
sacct --starttime 2020-01-01
然后选择您感兴趣的作业(例如作业 1234)并使用 sacct 打印详细信息:
sacct -j 1234 --format=User,JobID,Jobname,partition,state,time,start,end,elapsed,MaxRss,MaxVMSize,nnodes,ncpus,nodelist
参见here在 --helpformat
下查看可用字段的完整列表。
关于hpc - 在 SLURM 中提取过去工作的详细信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61344330/