node.js - App Engine nodejs 应用程序定期发送 502s 并重新启动

标签 node.js google-app-engine nginx

我们有一个成功部署到标准环境的 nodejs 应用程序。大约两个小时后(或更早,取决于流量)发生了一些事情:我们的下游客户端开始收到一堆 502 响应,然后服务稳定下来。我们认为这种情况至少已经发生了几个月。

在调查 502 的原因时,我看到:

  • 没有未处理的异常/ promise 拒绝日志表明 Node 应用程序已崩溃
  • 我在收到 SIGTERM 时使用 console.log 并且它也没有出现在日志中
  • nginx sidecar 的日志包括以下内容:
2020/06/16 23:11:11 [error] 35#35: *1149 recv() failed (104: Connection reset by peer) while reading response header from upstream, client: 169.254.1.1, server: _, request: "POST /api/redacted HTTP/1.1", upstream: "http://127.0.0.1:8081/api/redacted", host: "redacted.appspot.com""  

我假设 502 是来自 nginx,因为上游已经消失了。还有其他我应该探索的解释吗?

如果 GAE 有意替换我的应用程序容器,该过程难道不应该阻止这些类型的 502 吗?

当应用程序/容器被替换时,我是否应该期望环境发送 SIGTERM 以外的东西?

更新 #1 (2020-06-22)

我调查并发现了我们可能超出内存配额的证据,因此我将我们的 instance_class 从 F1 更改为 F2。在我写这篇文章时,我们的实例占用了大约 200M 的内存(F2 有 512M 可用)。此外,我使用 --max-old-space-size 开关将 Node 内存使用量设置为 496M。

502 仍在发生。

我怀疑 502 是由于自动缩放器终止实例而发生的。我们的应用程序永远不会收到 SIGTERM(即使在部署期间)。这意味着我无法优雅地关闭 http keepalive 连接,并且可能会解释为什么 nginx 引发 Connection reset by peer。

更新 #2 (2020-06-24)

我们的服务只是标准的 REST 类型的东西,没有繁重的循环。

我将发布另一个包含一些内存图的更新,但我没有看到任何峰值。可能是小的内存泄漏。

这是我们的 app.yaml:

service: redacted
runtime: nodejs12
instance_class: F2
handlers:
  - url: /.*
    secure: always
    redirect_http_response_code: 301
    script: auto

最佳答案

我们在 App Engine Flexible 上部署的 Node.js 应用程序遇到了非常相似的问题。

在我们的案例中,我们最终确定我们有内存压力导致 Node.js 垃圾收集器有时将请求的处理延迟数百毫秒(有时更多)。这导致我们的健康检查 URL 偶尔超时,促使 GAE 从事件池中删除该实例。

因为我们通常只有两个实例来处理稳定的流量,删除一个实例很快就会使剩余的实例过载,并且它很快就会遭受同样的命运。

我们惊讶地发现,App Engine 可能需要两分钟或更长时间才能将流量分配给新创建的实例。在我们的原始实例被宣布为不健康的时间和新实例在线之间,502s 将返回给客户端(大概是 GAE 的 nginx)。

我们能够简单地通过添加来稳定环境:

automatic_scaling:
   min_num_instances: 4

到我们的 app.yaml。因为两个实例通常足以满足流量,确保我们始终有四个运行显然可以使我们的内存使用率保持在足够低的水平,以防止 GC 停止请求处理,即使它停止了,我们也有足够的多余容量来处理一个被删除的实例。

scaling settings for GAE standard略有不同。

回想起来,我们可以看到在真正的问题开始之前我们的延迟/响应时间会变得有点“紧张”。大多数响应的典型响应时间约为 30 毫秒,但我们会越来越多地看到 x00 毫秒范围内的异常请求。您可能需要检查您的请求日志,看看是否看到类似的内容。

New Relic 的 Node.js VM data有助于检测垃圾收集正在花费越来越多的时间。

关于node.js - App Engine nodejs 应用程序定期发送 502s 并重新启动,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62453863/

相关文章:

node.js - 在关闭事件时从 Node.js readline 模块返回数组

java - GWT + JDO + GAE,如何安排我的数据以提高性能

java - 使用 Google Cloud Storage 的客户端库可恢复上传

ruby-on-rails - 在 Rails 3 的 URL 段中允许编码斜线的最佳方式是什么?

django - Nginx 重定向到默认页面

javascript - Node.js 中对 Promise 的原生支持

javascript - 如何使scrollIntoView()在第一次点击时起作用(Angular 6)?

node.js - 如何修复 macOS 上的 node.js 写入文件权限被拒绝错误?

python - 安装 Google App Engine 后无法运行默认的 python 应用程序

php - 配置 phabricator 和 nginx 的问题