我正在运行一个 12 节点 jvm ignite 集群。每个 jvm 都在其自己的 vmware 节点上运行。我正在使用 Zookeeper 使用 tcp 发现来保持这些 ignite 节点同步。我在zookeeper日志中看到很多节点故障 尽管 java 进程正在运行,但我不知道为什么某些 ignite 节点会在集群中出现“节点失败”类型的错误。 Vmware 使用 vmotion 来执行他们所谓的“迁移”。我假设这是 vmware 节点之间的某种文件系统同步过程。 我还在 ignite 的 jvm 日志中看到相当频繁的“转储挂起对象”和“无法等待分区映射交换”类型的消息。 我的环境设置如下:
- Apache Ignite 1.9.0
- RHEL 7.2 (Maipo) 在 12 个节点上运行
- Oracle Jdk1.8。
- 动物园管理员3.4.9
请告诉我你的想法。
TIA
最佳答案
一般有两种可能的原因:
- 内存问题。例如,如果节点进入长时间 GC 暂停状态,它可能会变得无响应,从而从拓扑中删除。欲了解更多详细信息,请阅读此处:https://apacheignite.readme.io/docs/jvm-and-system-tuning
- 网络连接问题。检查虚拟机之间的网络是否稳定。您可能还想尝试增加故障检测超时:https://apacheignite.readme.io/docs/cluster-config#failure-detection-timeout
关于vmware - 点燃集群成员资格的更改无法解释,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44104467/