我遇到了一个问题,我有一个 Ops Manager,它假设将 MongoDB 集群作为自动化集群运行。
突然,服务器开始出乎意料地宕机 - 而任何日志文件中都没有错误表明问题何时出现。
Ops Manager 卡在蓝色标签上
We are deploying your changes. This might take a few minutes
而且它永远不会消失。
因为这个环境基于自动化功能,mms 正在管理服务器上的用户,并运行来自“mongod”的所有进程,即使作为 root(管理员)我也无法访问这些进程。
就 Ops Manager 而言,它显示副本集中的一个分片虽然还处于事件状态,但已关闭,并且认为已死的 mongos 还活着。
有人曾经遇到过这种情况并且可以提供帮助吗?
谢谢, 埃里兰。
最佳答案
发现问题:集群中的服务器之间存在某种 ntp 不匹配的情况,因此发生的情况是服务器未同步,并且每次操作管理器执行某些操作时都会收到错误时间的响应,并且无法使用它的时间限制。
将所有 ntp 重新配置回同一个后 - 一切都恢复到应有的样子:)
关于MongoDb Ops Manager 无法启动 mongos 和分片,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39134566/