php - 调试504网关超时及实际原因及解决方法

我们在 RHEL 6.6 上的 Web 服务器 Varnish + Nginx + FastCGI (php-fpm) 上运行以下堆栈

它是一个动态网站，每次都有不同的结果集，并且有大约 200 万个 url 被谷歌索引。

它在 nginx/1.5.12 和 PHP 5.3.3 上运行(即将升级到最新的 nginx 和 PHP)

Nginx 连接到在同一服务器上本地运行的 php-fpm 端口 9000

我们在某些无法解决的页面上间歇性地收到 504 网关超时。一段时间后，给出 504 的 URL 可以正常工作。
我们从日志中了解到 504，但我们无法复制它，因为它随机发生在任何 URL 上并且在一段时间后起作用。

我与开发人员进行了几次讨论，但根据他的说法，底层的 php 脚本几乎没有做任何事情，它不应该花这么长时间(120 秒)，但它仍然给出 504 网关超时。

需要确定问题发生的确切位置:

Nginx 有问题吗？

是 php-fpm 的问题吗？

是底层 php 脚本的问题吗？

nginx 是否可能无法连接到 php-fpm ？

如果我们使用 Unix 套接字而不是 TCP/IP 连接，它会解决吗？

120 秒后 URL 超时并显示 504

下面是看到的错误:
2016/01/04 17:29:20 [错误] 1070#0:*196333149 连接上游时上游超时(110:连接超时)，客户端:66.249.74.95，服务器:xxxx，请求:“GET/Some/url HTTP/1.1”，上游:“fastcgi://127.0.0.1:9000”，主机:“example.com”

早些时候 fastcgi_connect_timeout 为 150 秒 - 它曾经在 63 秒后给出 502 状态代码，默认 net.ipv4.tcp_syn_retries = 5 在 RHEL 6.6 上；之后我们设置 net.ipv4.tcp_syn_retries = 6 然后它在 127 秒后开始给出 502。

一旦我设置了 fastcgi_connect_timeout = 120，它就开始给出 504 状态代码。我理解具有如此高值的 fastcgi_connect_timeout 并不好。

需要找出为什么我们得到 504(我知道它的超时但原因未知)。需要找到根本原因以永久修复它。

我如何确认问题究竟出在哪里？

以下是一些已经定义的超时:

在服务器范围的 nginx.conf 下:

keepalive_timeout 5;

发送超时 150；

在特定的 vhost.conf 下:

proxy_send_timeout 100

proxy_read_timeout 100

proxy_connect_timeout 100

fastcgi_connect_timeout 120

fastcgi_send_timeout 300

fastcgi_read_timeout 300

使用了不同的超时值，因此我可以找出确切触发了哪个超时。

以下是 sysctl.conf 中的一些设置:

net.ipv4.ip_local_port_range = 1024 65500

net.ipv4.tcp_fin_timeout = 10

net.ipv4.tcp_tw_reuse = 1

net.ipv4.tcp_syn_retries = 6

net.core.netdev_max_backlog = 8192

net.ipv4.tcp_max_tw_buckets = 2000000

net.core.somaxconn = 4096

net.ipv4.tcp_no_metrics_save = 1

vm.max_map_count = 256000

如果代码写得不好，那么我需要通知开发人员 504 是由于 php 代码问题而不是由于 nginx 或 php-fpm 而发生的，如果是由于 Nginx 或 Php-fpm 则需要修复它。

提前致谢!

======

进一步更新:

有2种情况:

504 @ 120 秒出现以下错误:

2016/01/05 03:50:54 [错误] 1070#0:*201650845 连接上游时上游超时(110:连接超时)，客户端:66.249.74.99，服务器:xxxx，请求:“GET/some/url HTTP/1.1”，上游:“fastcgi://127.0.0.1:9000”，主机:“example.com”

504 @ 300 秒出现以下错误:

2016/01/05 00:51:43 [error] 1067#0: *200656359 从上游读取响应头时上游超时(110:连接超时)，客户端:115.112.161.9，服务器:192.168.12.101，请求“GET/some/url HTTP/1.1”，上游:“fastcgi://127.0.0.1:9000”，主机:“example.com”

在 php-fpm 日志中没有发现错误。

php-fpm 进程数也正常。后端看起来没有重载，因为其他请求同时被很好地提供。

只使用了一个 php-fpm 池。一个php-fpm master(父)进程和其他slave(子)进程通常只有在观察到5xx时才在正常范围内。 php-fpm 进程的数量没有显着增长，即使增长，服务器也有足够的容量来 fork 新进程并为请求提供服务。

最佳答案

尝试增加 fastcgi_read_timeout和 proxy_read_timeout在您的 nginx 配置中甚至更多。
您可以将此添加到任何具有较长任务的文件的顶部

ini_set('max_execution_time', '0'); // for infinite time of execution   
ini_set('max_execution_time', '300'); //300 seconds = 5 minutes
ini_set('memory_limit','2048M'); // For unlimited memory limit set -1

关于php - 调试504网关超时及实际原因及解决方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34593048/

php - 调试504网关超时及实际原因及解决方法

上一篇：linux - 为非登录用户设置环境变量

下一篇：python - 如何在 Windows 上挂载和卸载