linux - 重新启动 Linux 工作站时与日志文件相关的 pbs_mom 问题

标签 linux pbs torque

我在启动我们的一个工作站时遇到一些问题,我认为这与 TORQUE 资源管理器有关。

(扭矩服务器运行在CentOS,工作站运行在RedHat)

很抱歉,我可能无法更准确地解释问题,但我目前缺乏进一步缩小问题范围的知识和技能。简单介绍一下这个问题的背景:我们最近在周末停电,持续时间比备用电池持续时间长。因此,基本上每个工作站以及 NIS 主站和从站都已关闭。不幸的是,我们的系统管理员上个月永远离开了,我只是想让机器恢复运行。由于

pbs_mom: LOG_ERROR::read_config, config[19] 特殊命令 log_file_role_depth 失败 = 5

到目前为止,我在网上搜索了解决方案并尝试了不同的方法:

  • 在扭矩服务器上重新启动 pbs_mom
  • 清除日志文件
  • 修复扭矩相关目录中的权限

但是,我对 mom_priv/config 文件本身的 log_file_role_depth=5 设置感到疑惑。看起来这不是一个有效的命令?!我试图将其更改为 ...=1 并甚至将其完全注释掉,但是,之后机器会在不同的步骤重新启动时卡住,我无法判断是哪个导致的这个问题:

enter image description here

(以上截图来自工作站,非扭矩服务器)

扭矩服务器似乎也存在相关问题。例如,如果我终止 pbs_mom 进程并通过

重新启动它
pbs_mom -p

我收到相同的日志文件错误,但此后 pbs_mom 进程正在运行。

enter image description here

有什么想法或建议接下来要尝试什么吗?我将非常感谢任何反馈,由于我缺乏系统管理员技能,我在这里真的有点迷失。

最佳答案

此消息表示处理妈妈的配置文件时出错。它位于/mom_priv/config。默认情况下,这是/var/spool/torque/mom_priv/config。从错误消息来看,您的文件似乎有:

$log_file_roll_depth = 5

你想要它没有等号:

$log_file_roll_depth 5

关于linux - 重新启动 Linux 工作站时与日志文件相关的 pbs_mom 问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32212420/

相关文章:

c++ - MPI_Comm_spawn 失败,返回 "All nodes which are allocated for this job are already filled"

torque - 请求使用 Torque 提交的作业数

java - 如何在 Ubuntu Linux 启动时运行 Java 应用程序

linux - Linux内核中的驱动探测顺序

c++ - 共享内存、MPI 和排队系统

pbs - 在 PBS 作业脚本中获取挂墙时间

shell - qdel是否会全部删除其他用户的作业?

mysql - 启用 MySQL 系统日志以记录中止的连接和拒绝访问

c++ - Qt Creator 未定义套接字 - Linux

parallel-processing - 使用 PBS 脚本并行执行