我有一个要求,我必须缓冲大量数据(以 GB 为单位)以供将来使用。 由于没有足够的 RAM 可用于缓冲如此大量的数据,我决定将数据存储在文件中。
现在这里的陷阱是,当我将数据写入文件时,其他线程可能需要该“缓冲”数据,因此我每次写入内容时都必须刷新文件流。准确地说,数据是我作为预录数据缓冲的视频帧(如 TiVo)
在任何给定的时间点,其他线程可能想要也可能不想写入它,但是当它们这样做时,它们会从文件中fread
并处理帧。
在一般情况下,fwrite
-fflush
组合需要大约 150 us,但偶尔(并且相当有规律),组合需要超过 1.5 秒。我负担不起,因为我必须实时处理帧。
我这里有很多问题:
我在文件中缓冲数据的方法是否正确?我有什么选择?
知道为什么 fwrite-fflush 操作在某些情况下突然需要更多时间吗?请注意,它会在 1.5 秒后恢复到 150 微秒。
最佳答案
至于 #2:大多数现代文件系统都使用 btree 方法来管理当今巨大 HD 中的目录和数据节点数量。与所有 btree 一样,它们有时需要平衡。发生这种情况时,不必进行任何更改,因此这就是系统锁定的原因。通常,这没什么大不了的,因为操作系统有巨大的缓存,但你是一个极端情况,它会受到伤害。
你能做什么?有两种方法:
使用套接字进行通信并将最后 N 帧保存在 RAM 中(即永远不要将它们写入磁盘或使用独立进程将其写入磁盘)。
不要编写新文件,覆盖现有文件。由于所有数据 block 的位置都是预先知道的,所以在写入时不会在 FS 中进行重组。它也会快一点。所以想法是创建一个大文件或使用原始分区然后覆盖它。当您到达文件末尾时,返回到开头并重复。
缺点:
使用方法 1,您可能会丢帧。此外,您必须绝对确保所有客户端都能足够快地读取和处理数据,否则服务器可能会阻塞。
对于#2,您必须找到一种方法来告诉读者当前“文件末尾”在哪里。
所以也许混合方法是最好的:
- 创建一个大文件(几 GB)。如果一个文件不够用,请创建多个。
- 打开一个套接字
- 将数据写入文件。如果到达文件末尾,则寻找位置 0 并继续在那里写入(如循环缓冲区)。
- 刷新数据
- 通过套接字将新数据的开始和数量发送给读者
考虑使用内存映射文件;这将使一切变得更简单。
关于c - 将数据写入文件 : fflush() takes a lot of time,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6607231/