python - 在 Python 中为套接字 IO 编写字符串缓冲区的最佳方法是什么?

标签 python sockets buffer

我有一个运行非阻塞事件循环的线程,其他线程可以将字符串放在缓冲区中,以便事件循环写入套接字。

我想将字符串累积在一个缓冲区中,以便可以使用一次调用 send 来发送多个小字符串。

从概念上讲,缓冲区需要做 3 件事。

  1. 从缓冲区的开头获取一大块数据
  2. 将数据添加到缓冲区的末尾
  3. 释放缓冲区的前 n 个字节

我考虑了一些事情。

  • StringIO 确实适合将字符串写入到最后,但无法在写入套接字后释放数据。
  • collections.deque 字节。内存效率非常低。
  • array.array 易于追加字符串。复制切片以读取/转储数据。

我当前的代码看起来像这样,但我对复制和锁定不是很满意。

from array import array
from threading import Condition

class SendBuffer(object):

    def __init__(self, max_size):
        self.mark = 0
        self.buf = array('c')
        self.max_size = max_size
        self.full = Condition()

    def __len__(self):
        with self.full:
            return len(self.buf) - self.mark


    def write(self, data):
        with self.full:
            while len(self) >= self.max_size:
                # wait until data is written
                self.full.wait()

            self.buf.fromstring(data)

    def _peek(self):
        return buffer(self.buf, self.mark)

    def _written(self, n):
        self.mark += n
        self.full.notify_all()

        if self.mark >= len(self.buf):
            self.mark = 0
            self.buf = array('c')
        elif self.mark >= self.max_size:
            self.buf = self.buf[self.mark:]
            self.mark = 0

    def to_sock(self, sock):
        with self.full:
            data = self._peek()
            if data:
                n = sock.send(data)
                self._written(n)

最佳答案

你的问题是你的缓冲区,比如 StringIO,只有追加到才有效。完成处理后,不要追加到末尾并从前面删除,而是执行以下操作:

  • 得到两个缓冲区。
  • 在任何时刻,所有写入都将转到其中一个(的末尾),而读者将从另一个读取(如果缓冲区大于想要的,则使用索引来保持位置可以在一个中写出发送()调用)。
  • 当读者读完一个缓冲区时,缓冲区被清除 (*) 并且他们交换角色。

让我们考虑一些情况:

  • 读取器超过写入器:每次写入后立即跟随着相同大小的读取,并且缓冲区交换位置。每次写入都会立即作为一个数据包发出。

  • 读取器和写入器完全同步,或者足够接近但有一些抖动:多个小写入累积到写入缓冲区中,直到读取器完成,然后它们以与网络一样大的 block 发送出去将采取。

  • 作者的速度超过了读者。当读取器忙于处理读取缓冲区时,写入缓冲区将填满。读取器仍会发送与网络所接收的一样大的数据 block ,但您需要以某种方式限制写入器(通常通过设置最大缓冲区大小)并调节它们以避免占用无限量的内存。

请记住,缓冲区只是一种防止由于抖动造成的停顿的方法。它们无助于防止不匹配的生产者/消费者速度。实际上,您的缓冲区要么总是满的,要么总是空的。

(*) 清除一个 StringIO 对象显然不是微不足道的,Google 了一下。您可能想创建一个新对象而不是清除对象,但这可能会导致大量垃圾,如果您有很多上下文切换,则需要进行 GC。相反,您还可以考虑使用数组和 index 的组合来构建自己的可清除缓冲区。变量,在这种情况下清算将归结为 index = 0 .

关于python - 在 Python 中为套接字 IO 编写字符串缓冲区的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23128715/

相关文章:

javascript - NODEJS SMB2 - 将缓冲区转换为日期和时间

javascript - 将原始二进制数据写入缓冲区

python - Pycco 是否将文档测试识别为代码?

python - 获取 lxml 节点中的所有文本

c++ - 伯克利套接字 : recv system call

java - HttpURLConnection 握手和请求发送

python - 使用父构造函数在 SQLAlchemy session 中添加子类

python - C++ 到 Python 初学者

performance - 阻塞与非阻塞 winsock 的速度/性能特征

c++ - C++ 字符串和流缓冲区溢出安全吗?