cluster-computing - 作业从运行状态切换到排队并返回

标签 cluster-computing pbs torque

我们观察到集群上的一些作业运行扭矩 pbs 和 maui 的这种奇怪行为:一些作业在 (R)unning 和 (Q)ueued 状态之间切换。尝试谷歌搜索并没有找到任何提示。可能是什么原因?值得注意的是,这些作业在性质上是不同的:有些使用 TensorFlow 和 python,有些使用 C++ 可执行文件。

最佳答案

在这里说的还不够多,但我猜他们并没有真正在运行。 pbs_mom 日志和系统日志应该提供线索。

关于cluster-computing - 作业从运行状态切换到排队并返回,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44847015/

相关文章:

linux - SGE Cluster - 提交后脚本失败 - 在终端中工作

machine-learning - 什么方法最适合对形状不规则的多维数据进行聚类?

python - 在没有实际作业文件的情况下提交 qsub 作业的语法?

torque - 请求使用 Torque 提交的作业数

hadoop - 与 Hadoop 共享集群

pbs - 我可以在脚本的 PBS 指令中使用 PBS 环境变量吗?

hadoop - 如何将Zookeeper集群与Hbase集群集成

cluster-computing - 如何获得 SGE 工作状态

linux - 名称为 ! 的文件是什么意思?意思是?