docker - docker swarm 中没有发生 redis sentinel 故障转移

标签 docker redis docker-compose docker-swarm redis-sentinel

我一直在尝试使用 docker-compose 文件在哨兵模式下设置 redis。 以下是我撰写文件的内容-

version: '3.3'
services:
  redis-master:
    image: redis:latest
    deploy:
      replicas: 1
    networks:
      - Overlay_Network

  redis-slave:
    image: redis:latest
    command: redis-server --slaveof redis-master 6379
    depends_on:
      - redis-master
    deploy:
      replicas: 2
    networks:
      - Overlay_Network

  sentinel:
    image: sentinel:latest
    environment:
      - SENTINEL_DOWN_AFTER=5000
      - SENTINEL_FAILOVER=5000
      - REDIS_MASTER=redis-master
    depends_on:
      - redis-master
      - redis-slave
    deploy:
      replicas: 3
    networks:
      - Overlay_Network

networks:
 Overlay_Network:
    external:
      name: Overlay_Network

在这里,我创建了三个服务 redis-master、redis-slave 和 sentinel(使用本地 docker 镜像,根据传递的 env 变量以 sentinel 模式启动 redis)。我按照这个创建哨兵图像 https://gitlab.ethz.ch/amiv/redis-cluster/tree/master

当我使用 docker-compose 运行服务时。它工作正常。

docker-compose -f docker-compose.yml up -d

它以每个服务的单个实例启动所有服务。后来我手动将 redis-slave 扩展到 2 个实例,将 sentinel 扩展到 3 个实例。 然后,当我停止 redis-master 的容器时,sentinel 会注意到它并将其中一个从节点设为主节点。它按预期工作。

当我使用 docker stack deploy 命令使用相同的撰写文件以群模式运行它时,会发生此问题。

docker stack deploy -c docker-compose.yml <stack-name>

它启动所有服务,1 个实例用于 redis-master,2 个用于 redis-slave,3 个用于 sentinel。它使用覆盖网络。 当我停止 redis-master 的容器时,sentinel 无法将任何从节点升级到主模式。 似乎哨兵无法添加和通知从节点。它添加然后显示在关闭状态。 这是哨兵日志文件的片段。

1:X 04 Jul 2019 14:31:36.465 # oO0OoO0OoO0Oo Redis is starting oO0OoO0OoO0Oo
1:X 04 Jul 2019 14:31:36.465 # Redis version=5.0.5, bits=64, commit=00000000, modified=0, pid=1, just started
1:X 04 Jul 2019 14:31:36.465 # Configuration loaded
1:X 04 Jul 2019 14:31:36.466 * Running mode=sentinel, port=26379.
1:X 04 Jul 2019 14:31:36.466 # WARNING: The TCP backlog setting of 511 cannot be enforced because /proc/sys/net/core/somaxconn is set to the lower value of 128.
1:X 04 Jul 2019 14:31:36.468 # Sentinel ID is e84a635f6cf4c0ee4454922a557a7c0fba00fadd
1:X 04 Jul 2019 14:31:36.468 # +monitor master mymaster 10.0.22.123 6379 quorum 2
1:X 04 Jul 2019 14:31:36.469 * +slave slave 10.0.22.125:6379 10.0.22.125 6379 @ mymaster 10.0.22.123 6379
1:X 04 Jul 2019 14:31:38.423 * +sentinel sentinel f92b9499bff409558a2eb985ef949dfc7050c528 10.0.22.130 26379 @ mymaster 10.0.22.123 6379
1:X 04 Jul 2019 14:31:38.498 * +sentinel sentinel 6e32d6bfea4142a0bc77a74efdfd24424cbe026b 10.0.22.131 26379 @ mymaster 10.0.22.123 6379
1:X 04 Jul 2019 14:31:41.538 # +sdown slave 10.0.22.125:6379 10.0.22.125 6379 @ mymaster 10.0.22.123 6379

我认为这可能是由于容器的启动顺序。但是 depends_on 字段对堆栈模式无效,我找不到任何其他方法来定义堆栈模式中的启动顺序。

当我对覆盖网络执行 docker network inspect 时,这是输出

"Containers": {
    "57b7620ef75956464ce274e66e60c9cb5a9d8b79486c5b80016db4482126916b": {
        "Name": "sws_sentinel.3.y8sdpj8609ilq22xinzykbxkm",
        "EndpointID": "a95ab07b07c68a32227be3b5da4d378b82f24aab4279bfaa13899a2a7184ce09",
        "MacAddress": "02:42:0a:00:16:84",
        "IPv4Address": "10.0.22.132/24",
        "IPv6Address": ""
    },
    "982222f1b87e1483ec791f382678ef02abcdffe74a5df13a0c0476f7f3a599a7": {
        "Name": "sws_redis-slave.1.uxwkndhkdnizyicwulzli964r",
        "EndpointID": "f5f8fa056622b1529351355c3760c3f45357c7b3de3fe4d2ee90e2d490328f2a",
        "MacAddress": "02:42:0a:00:16:80",
        "IPv4Address": "10.0.22.128/24",
        "IPv6Address": ""
    },
    "c55376217215a1c11b62ac9d22d28eaa1bcda89484a0202b208e557feea4dd35": {
        "Name": "sws_redis-slave.2.s8ha5xmvx6sue2pj6fav8bcbx",
        "EndpointID": "6dcb13e23a8b4c0b49d7dc41e5813b317b8d67377ac30a476261108b8cdeb3f8",
        "MacAddress": "02:42:0a:00:16:7f",
        "IPv4Address": "10.0.22.127/24",
        "IPv6Address": ""
    },
    "cd6d72547ef3fb34ece45ad0201555124505379182f7445373025e1b9a115554": {
        "Name": "sws_redis-master.1.3rhfihzqip2a44xq2uerhqkjt",
        "EndpointID": "9074f9c911e03de0f27e4fb6b75afdf6bb38a111a511738451feb5e64c8dbff3",
        "MacAddress": "02:42:0a:00:16:7c",
        "IPv4Address": "10.0.22.124/24",
        "IPv6Address": ""
    },
    "lb-SA_Monitor_Overlay": {
        "Name": "SA_Monitor_Overlay-endpoint",
        "EndpointID": "2fb84ac75f5eee015b80b55713da83d1afb7dfa7ed4c1f5eda170f4b8daf8884",
        "MacAddress": "02:42:0a:00:16:7d",
        "IPv4Address": "10.0.22.125/24",
        "IPv6Address": ""
    }
}

在这里我看到从站正在 ip 10.0.22.128 和 10.0.22.127 上运行,但在 sentinel 日志文件中它正尝试使用 ip 10.0.22.125 添加从站。这是为什么?这可能是个问题吗?

如果需要更多详细信息,请告诉我。

最佳答案

我得出结论,这是由于 docker swarm 默认负载均衡器导致的。 Sentinel 从主节点获取有关从节点的信息。但是奴隶并没有在 docker 网络中注册他们的实际 IP 地址。好像是负载均衡的IP。所以 sentinel 无法使用该 IP 访问从站,它显示从站已关闭。

他们也在他们的文档页面上提到了它

https://redis.io/topics/replication [在 Docker 和 NAT 中配置复制]

https://redis.io/topics/sentinel [Sentinel、Docker、NAT 和可能的问题]

作为对此的解决方案,我制作了自定义 Dockerfile 来启动 redis-slave 节点。它使用 redis.conf 和一个 entrypoint.sh 脚本。在 entrypoint.sh 中,我获取容器的真实 IP 并将其写入 redis.conf,作为最后一步,使用更新后的 redis.conf 启动 redis-server。

slave-announce-ip <CONTAINER_IP_ADDRESS>
slave-announce-port 6379

您也可以对哨兵节点执行类似的步骤。

现在 slaves 将使用他们真实的容器 IP 地址、端口和 sentinel 进行注册。

关于docker - docker swarm 中没有发生 redis sentinel 故障转移,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56890293/

相关文章:

linux - SSH 隧道到 docker 容器

linux - 如何使用 docker 镜像构建应用程序?

redis-cli 'sentinel slaves redis-cluster' 返回一个带有密码保护主控的空列表

python - 通过 docker-compose 运行 'pip install' 时出现 ConnectTimeoutError

docker - 如何在 docker compose 中设置覆盖网络

postgresql - 从另一个容器访问 Docker postgres 容器

redis - 返回没有设置的 KEYS

f# - 使用带有 redis 服务堆栈库的 f# 类的奇怪行为

docker - 将Artifactory配置为位于http://some.domain:port而不是http://some.domain:port/artifactory/

docker - Redis 在 docker 容器中无故关闭