我每周一次在 2 节点集群上的一个节点上收到此错误。 这是我在 AMC 上遇到的错误:
主要错误:
Cluster integrity has been disturbed
每组错误:
Mismatch in replication factor for namespace test as shown by nodes
关于信息,这 2 个节点具有相同的 aerospike.conf 文件,复制因子为 2。 另一件引起我注意的事情是,整个集群不可用,而只有一个节点宕机(不可见),所以我在质疑自己 Aerospike 的 HA。
为了解决这个问题,我只是简单地重启了不可见的节点。
On the aerospike documentation它说:
This can be true if a set of nodes has split from the main cluster. (This is sometimes referred to as a split brain.) Generally, it is easiest to restart the “lost” node(s) to get it/them to rejoin the cluster.
但由于这个问题每周都会发生,我很乐意一劳永逸地解决这个问题:)
最佳答案
一个建议是将 paxos-recovery-policy 设置为 auto-reset-master,假设问题的原因是临时网络流量,这意味着集群可能会失去完整性,集群应该自行重新组合在一起。
关于aerospike - 集群完整性受到干扰,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36397233/