tcp - 大量的 TIME_WAIT 会导致服务器瘫痪吗？

我已阅读相关问题:

What is the cost of many TIME_WAIT on the server side?

但我还是迷失了方向。我们有两台应用程序服务器和一台数据库服务器(都是云服务提供的虚拟机)。今天，数据库服务器在没有任何警告的情况下完全关闭。我们设法让云服务供应商将其恢复到在线状态，并将我们的应用程序再次恢复到工作状态。

当被问及其原因时，云服务供应商返回了一堆 TCP 统计信息(大约 1500 行)，如下所示(出于隐私原因进行了屏蔽):

ipv4     2 tcp      6 98 TIME_WAIT src=x.x.x.x dst=y.y.y.y sport=z dport=5432 packets=p bytes=b src=y.y.y.y dst=x.x.x.x sport=5432 dport=z packets=p bytes=b [ASSURED] mark=0 secmark=0 use=2

供应商声称服务器出现问题并因传入连接过多而自行关闭，大量 TIME_WAIT 连接就证明了这一点。

但是，没有说明收集统计数据的时间范围。如果它们是在很长的时间范围内收集的，则统计数据不能用于声称存在大量此类连接。

此类声明仅对在特定时间点(而非时间范围)完成的快照统计有效，其中明显存在大量连接TIME_WAIT 在给定时间点的状态。 我说得对吗？

即使我们承认在快照时间点确实存在大量 TIME_WAIT 连接的可能性，这是否会对服务器造成损害？是否会使服务器崩溃突然停止？拒绝服务攻击就是这样发生的吗？

最佳答案

每个 TIME_WAIT 状态都必须被跟踪，简单明了。当数据包返回 TIME_WAIT 连接时，这种状态维护(想想:每个连接使用的物理内存)允许 TCP 堆栈将传入数据包与已关闭的连接关联起来。如果不是 SYN，则该数据包将被忽略。如果它是 SYN，则某些(大多数？)实现允许 TIME_WAIT 暗杀。

很简单，是的，太多并发关闭的连接可能会使系统过载，因为 TIME_WAIT 持续几分钟左右。

关于此类攻击的可能性，是的，这当然是可能的。然而，它很可能是分布式拒绝服务 (DDOS)，而不是普通的 DOS。这是因为要将连接置于 TIME_WAIT 状态，连接必须完全打开 (SYN + SYN/ACK + ACK)，然后关闭 (FIN + FIN/ACK + ACK)，并且只有少数机器不会这样做能够以这种方式淹没服务器。但考虑到打开 TCP 连接需要几毫秒的时间，而 TIME_WAIT 通常会持续几分钟，因此存在潜在的问题。

但是，这很大程度上会导致供应商的 TCP 实现。 1500 听起来不像是大量的 TIME_WAIT 状态，而且这似乎无关。如果服务器由于并发连接过多而丢弃连接，那么您需要了解当时的事件负载，而不是 TIME_WAIT。现代 TCP 实现(服务器端)在看到 SYN/ACK 之前甚至不会创建 TCP 连接(使用 TCP SYN cookie 来防止 DOS)。因此，这里缺少一些信息。

编辑:

尽管更多地考虑这一点，但不存在 TCP 级问题并不一定意味着您的供应商正在推卸责任。 1500 个 TCP 连接是非常低的，但对于这个特定的数据库来说，也许并非如此。一些 RDMS 只允许相对较少数量的连接(相对于 TCP 堆栈可以支持的数量)。该值完全依赖于 RDMS，通常可以配置。

例如，我曾经超出了 MySQL 服务器允许的并发连接数，并且服务器拒绝处理更多数据(您可以称之为磨机停机)，因为我没有正确关闭与 MySQL 的连接。也许您的数据库能够很好地支持比您所提供的更多的功能，但您使用连接的效率很低。

关于tcp - 大量的 TIME_WAIT 会导致服务器瘫痪吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22351193/

tcp - 大量的 TIME_WAIT 会导致服务器瘫痪吗？

上一篇：c# - 通过 LAN 发送数据最快的方法是什么？

下一篇：c# - 请求的地址在 TCP 套接字通信的上下文中无效