设置:两台 Linux (CentOS 6) 服务器通过专用 GigE 链路背靠背连接。每台服务器24核32GB RAM
客户端:模拟器在一个线程中尽可能快地发送 UDP 数据包。每个数据包大小为 256 字节。我看到最大吞吐量约为 200,000 个数据包/秒。
Server:单线程接收UDP socket上的数据包,进行轻量级解析。我看到最大吞吐量约为 200,000 个数据包/秒,CPU 1 1 核在处理期间的利用率约为 85%。没有丢包,为了以防万一,接收缓冲区设置为128M。
现在我有 23 个额外的核心我想使用,但是只要我再添加一个线程用于在服务器端接收数据和一个客户端线程用于通过专用套接字在客户端发送数据,我就会看到服务器端大量丢包。
服务器线程彼此完全独立,除 I/O 外不阻塞。他们也没有在套接字上竞争,因为他们每个人都从自己的 UDP 套接字中吸取数据包。
我看到以下行为:
- 每个内核的 CPU 占用率约为 85%,如果有一个额外的内核,名为 ksoftirqd/xx 的进程使用大约 90%。
- 我正在丢失数据包,每个线程的吞吐量下降到大约 120,000 个数据包/秒
Google 表示 ksoftirqd 使用 CPU 来处理软中断和繁重的系统调用(UDP 读取)可能是此内核线程 CPU 使用率高的原因之一。
我通过将我的进程固定到同一个物理插槽上的一堆内核来重复实验,我发现性能提高到 150,000 个数据包/秒,但仍然有一些相当大的数据包丢失。
有什么方法可以提高我的程序的可扩展性并最大限度地减少数据包丢失?
最佳答案
首先,每秒 200,000 个数据包,每个数据包 256(数据?)字节,一旦您考虑 UDP、IP 和以太网开销,您的运行容量几乎是千兆链路的一半,仅计算带宽.以您插入的每秒数据包速率,许多交换机(例如)会折叠。
其次,您可能会被 IRQ 杀死。更好的网卡具有可调参数,可以让您以更少的 IRQ 换取增加的延迟(它们每 N 个数据包只中断一次)。确保您已启用该功能。 (要检查的一个地方是以太网卡的模块参数。)
关于linux - 如何扩展 UDP 读取吞吐量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7615912/