tcp - 大量的 TIME_WAIT 会导致服务器瘫痪吗?

标签 tcp netstat time-wait

我已阅读相关问题:

What is the cost of many TIME_WAIT on the server side?

但我还是迷失了方向。我们有两台应用程序服务器和一台数据库服务器(都是云服务提供的虚拟机)。今天,数据库服务器在没有任何警告的情况下完全关闭。我们设法让云服务供应商将其恢复到在线状态,并将我们的应用程序再次恢复到工作状态。

当被问及其原因时,云服务供应商返回了一堆 TCP 统计信息(大约 1500 行),如下所示(出于隐私原因进行了屏蔽):

ipv4     2 tcp      6 98 TIME_WAIT src=x.x.x.x dst=y.y.y.y sport=z dport=5432 packets=p bytes=b src=y.y.y.y dst=x.x.x.x sport=5432 dport=z packets=p bytes=b [ASSURED] mark=0 secmark=0 use=2

供应商声称服务器出现问题并因传入连接过多而自行关闭,大量 TIME_WAIT 连接就证明了这一点。

但是,没有说明收集统计数据的时间范围。如果它们是在很长的时间范围内收集的,则统计数据不能用于声称存在大量此类连接。

此类声明仅对在特定时间点(而非时间范围)完成的快照统计有效,其中明显存在大量连接TIME_WAIT 在给定时间点的状态。 我说得对吗?

即使我们承认在快照时间点确实存在大量 TIME_WAIT 连接的可能性,这是否会对服务器造成损害?是否会使服务器崩溃突然停止?拒绝服务攻击就是这样发生的吗?

最佳答案

每个 TIME_WAIT 状态都必须被跟踪,简单明了。当数据包返回 TIME_WAIT 连接时,这种状态维护(想想:每个连接使用的物理内存)允许 TCP 堆栈将传入数据包与已关闭的连接关联起来。如果不是 SYN,则该数据包将被忽略。如果它是 SYN,则某些(大多数?)实现允许 TIME_WAIT 暗杀。

很简单,是的,太多并发关闭的连接可能会使系统过载,因为 TIME_WAIT 持续几分钟左右。

关于此类攻击的可能性,是的,这当然是可能的。然而,它很可能是分布式拒绝服务 (DDOS),而不是普通的 DOS。这是因为要将连接置于 TIME_WAIT 状态,连接必须完全打开 (SYN + SYN/ACK + ACK),然后关闭 (FIN + FIN/ACK + ACK),并且只有少数机器不会这样做能够以这种方式淹没服务器。但考虑到打开 TCP 连接需要几毫秒的时间,而 TIME_WAIT 通常会持续几分钟,因此存在潜在的问题。

但是,这很大程度上会导致供应商的 TCP 实现。 1500 听起来不像是大量的 TIME_WAIT 状态,而且这似乎无关。如果服务器由于并发连接过多而丢弃连接,那么您需要了解当时的事件负载,而不是 TIME_WAIT。现代 TCP 实现(服务器端)在看到 SYN/ACK 之前甚至不会创建 TCP 连接(使用 TCP SYN cookie 来防止 DOS)。因此,这里缺少一些信息。

编辑:

尽管更多地考虑这一点,但不存在 TCP 级问题并不一定意味着您的供应商正在推卸责任。 1500 个 TCP 连接是非常低的,但对于这个特定的数据库来说,也许并非如此。一些 RDMS 只允许相对较少数量的连接(相对于 TCP 堆栈可以支持的数量)。该值完全依赖于 RDMS,通常可以配置。

例如,我曾经超出了 MySQL 服务器允许的并发连接数,并且服务器拒绝处理更多数据(您可以称之为磨机停机),因为我没有正确关闭与 MySQL 的连接。也许您的数据库能够很好地支持比您所提供的更多的功能,但您使用连接的效率很低。

关于tcp - 大量的 TIME_WAIT 会导致服务器瘫痪吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22351193/

相关文章:

windows - 如何在批处理中使用 netstat 命令后打开 .txt 文件

java - webdriver.get() 和 webdriver.navigate() 的区别

python SimpleHTTPRequestHandler 服务器在退出后将套接字留在 TIME_WAIT 状态

c++ - boost::asio 和递归服务器调用

python - Qt:Python tcp 客户端通过套接字发送数据。 Qt如何读取这些字节?

C# TCP 客户端在监听服务器和更新 GUI 时遇到问题

linux - TCP数据丢失事件

带有原始套接字的python套接字setsockopt

windows - 如何使用批处理脚本最好通过 WINDOWS 中的端口 80 终止 CLOSE_WAIT 状态进程

java - 如何在不损失纳秒级精度的情况下使用 TimeUnit.timedWait()?