google-cloud-platform - GCP Nat 后超时

标签 google-cloud-platform nat google-cloud-networking

我好像遇到了类似this的问题问题在于,在 GCP 上使用 gitlab runner 构建 docker 镜像时出现以下超时

Put https://registry.gitlab.com/v2/[redacted-repo]: dial tcp 35.227.35.254:443: i/o timeout

此时我的谷歌云 NAT 给出了以下日志输出:

{
   "insertId": "rh7b2jfleq0wx",
   "jsonPayload": {
     "allocation_status": "DROPPED",
     "endpoint": {
       "project_id": "gitlab-autoscale-runners",
       "vm_name": "runner-5dblbjek-auto-scale-runner-1589446683-0b220f90",
       "region": "europe-west4",
       "zone": "europe-west4-b"
     },
     "connection": {
       "protocol": 6,
       "src_port": 42446,
       "src_ip": "some-ip",
       "dest_ip": "some-ip",
       "dest_port": 443
     },
     "vpc": {
       "vpc_name": "default",
       "subnetwork_name": "default",
       "project_id": "gitlab-autoscale-runners"
     },
     "gateway_identifiers": {
       "gateway_name": "gitlab-runner-gateway",
       "router_name": "gitlab-runner-router",
       "region": "europe-west4"
     }
   },
   "resource": {
     "type": "nat_gateway",
     "labels": {
       "region": "europe-west4",
       "router_id": "7964886332834186727",
       "gateway_name": "gitlab-runner-gateway",
       "project_id": "gitlab-autoscale-runners"
     }
   },
   "timestamp": "2020-05-14T10:17:55.195614735Z",
   "labels": {
     "nat.googleapis.com/nat_ip": "",
     "nat.googleapis.com/instance_name": "runner-5dblbjek-auto-scale-runner-1589446683-0b220f90",
     "nat.googleapis.com/network_name": "default",
     "nat.googleapis.com/subnetwork_name": "default",
     "nat.googleapis.com/router_name": "gitlab-runner-router",
     "nat.googleapis.com/instance_zone": "europe-west4-b"
   },
   "logName": "projects/gitlab-autoscale-runners/logs/compute.googleapis.com%2Fnat_flows",
   "receiveTimestamp": "2020-05-14T10:18:00.422135520Z"
 }

上述问题似乎表明过度使用 NAT 端口存在问题。我已经通过使用谷歌云 CLI 确认这在我们的案例中不是问题,请参见下文。

$ gcloud compute routers get-nat-mapping-info gitlab-runner-router
---
instanceName: runner-5dblbjek-auto-scale-runner-1589446683-0b220f90
interfaceNatMappings:
- natIpPortRanges:
  - some-id:1024-1055
  numTotalDrainNatPorts: 0
  numTotalNatPorts: 32
  sourceAliasIpRange: ''
  sourceVirtualIp: some-ip
- natIpPortRanges:
  - some-ip:32768-32799
  numTotalDrainNatPorts: 0
  numTotalNatPorts: 32
  sourceAliasIpRange: ''
  sourceVirtualIp: some-ip

我似乎只使用了一些 64 端口。

谷歌云路由器通告以下状态:

kind: compute#routerStatusResponse
result:
  natStatus:
  - autoAllocatedNatIps:
    - some-ip
    minExtraNatIpsNeeded: 0
    name: gitlab-runner-gateway
    numVmEndpointsWithNatMappings: 3
  network: https://www.googleapis.com/compute/v1/projects/gitlab-autoscale-runners/global/networks/default  

相同的 docker-images 在本地运行时或在共享的 gitlab 运行器中运行时确实成功构建,即当不在 NAT 后面时。

在 google cloud nat 后面构建这个 docker 镜像时,如何防止超时?

最佳答案

查看 Cloud NAT 输出,它显示分配丢弃状态。建议的操作是将每个 VM 实例的最小端口数增加到足够的范围(4096 个端口)并让它运行几天。我建议这个数字来达到我们将停止掉落的地方,如果这有助于减少掉落,我们可能必须以 2 的系数增加更多,直到没有收到掉落。如果您在 4k 端口没有收到任何 DROPPED 状态,您可以减少它,直到找到一个中间值,您不再收到 DROPPED 状态,也没有打开大量 NAT 端口。您正在达到 64 个连接。端口使用表示 VM 到单个唯一目标(目标 IP:端口,协议(protocol))的连接数

查看您的配置,目前每个 VM 分配了 64 个端口(正如您在描述中提到的)。这意味着,该 vpc 中的每个 VM 实例都会获得 64 个 NAT IP:PORT 组合以进行外部连接。这意味着,您可以连接到 64 个唯一的唯一目标(目标 IP 地址、目标端口和协议(protocol))。当您进行测试时,您似乎已达到该限制。

分配给云 nat 网关的每个 NAT IP 都有 64512 个端口,因此在默认配置为每个 VM 64 个端口的情况下,NAT 网关会为 NAT 网关配置中选择的指定子网中的每个 VM 分配 64 个 NAT IP:PORT block .因此,这意味着使用此配置,您可以运行 1008 个 VM(64512 除以 64)。但是每个虚拟机可以同时连接到 64 个唯一的目的地。现在,根据您的应用程序/用例,如果您需要更多并发连接,则需要增加每个 VM 的最小端口数。

例如,如果每个 VM 有 1 个 NAT IP 和 1024 个最小端口,则可以运行 63 个 VM。每个虚拟机可以连接到 1024 个唯一目的地。如果你需要运行更多的VM你,需要分配更多的NAT IP。通过添加第二个 IP,您可以将 NAT 容量增加一倍。由于您选择了自动分配 NAT IP,因此当您在子网中创建更多 VM 时,将自动创建和分配 NAT IP。在这种情况下,您只需要调整每个虚拟机配置的最小端口即可满足您的流量需求。

请注意,一旦连接终止,NAT 网关有 2 分钟的计时器,在此之前 NAT IP:PORT 可以使用。 [1] ,所以你保持端口配置比你的峰值流量高一点。

有关端口计算的更多详细信息,请参见此处 [2]

[1] https://cloud.google.com/nat/docs/overview#specs-timeouts

[2] https://cloud.google.com/nat/docs/ports-and-addresses#ports

关于google-cloud-platform - GCP Nat 后超时,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61800313/

相关文章:

java - 在 Google App Engine 上选择 Java 还是 Python

kubernetes - Google Cloud Kubernetes无法连接到集群

python - 在 debian 上 pip 安装失败并出现 NewConnectionError

tomcat - 如何将 war 文件部署到位于 NAT 后面的远程 Tomcat 服务器?

network-programming - pwnat 仍然是一个适用的解决方案吗

google-app-engine - GKE 上用于导出到 GAE 应用程序的 IP 地址是 0.0.0.0,而不是带有 Cloud NAT 的 IPv4

google-cloud-platform - 私有(private) VPC 网络上的 Google Cloud Build

google-cloud-platform - GKE 将标准区域集群迁移至自动驾驶模式集群

Kubernetes:preferredDuringScheduling

java - java中使用p2p连接进行文件传输