我们观察到集群上的一些作业运行扭矩 pbs 和 maui 的这种奇怪行为:一些作业在 (R)unning 和 (Q)ueued 状态之间切换。尝试谷歌搜索并没有找到任何提示。可能是什么原因?值得注意的是,这些作业在性质上是不同的:有些使用 TensorFlow 和 python,有些使用 C++ 可执行文件。
最佳答案
在这里说的还不够多,但我猜他们并没有真正在运行。 pbs_mom 日志和系统日志应该提供线索。
关于cluster-computing - 作业从运行状态切换到排队并返回,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44847015/