algorithm - 交织/多路复用压缩流

我正在寻找一个好的压缩算法或库，让我可以将多个压缩数据流交织成一个数据流，不会造成性能或压缩损失。

更多背景信息:我一直在研究一种专用于特定应用程序的压缩格式。这种压缩格式对数据执行一堆特定领域的分析，然后将压缩数据输出为一堆流，每个流都被压缩(通常使用 LZW，但这不是一成不变的)。其中一个流，主要流，包含一堆 token 。来自主流的每个 token 都包含我需要推断出哪个辅助流包含我的下一个 token 的信息，我需要从该辅助流中读取多少解压缩字节，以及我需要做什么这个 token 。

到目前为止一切顺利，但我不想将我的最终数据作为一堆串联流发送，因为这需要我先接收到全部数据，然后才能对其进行有意义的处理。相反，我想将它们作为单个流发送，我可以在收到它时对其进行解码和处理。所以这基本上是想按照以下方式发送一些东西:

来自主流的一个标记(使用用于主流的字典压缩)；
- 好的，这是标记“FooBar”，我知道标记“FooBar”后面总是跟有两个来自流“Foo”的标记，一个来自流“Bar”的标记；
来自流“Foo”的两个标记(使用流“Foo”使用的字典压缩)；
来自流“Bar”的一个标记(使用用于流“Bar”的字典压缩)；
来自主流的一个 token (回到主流的压缩)；
...

这里的复杂之处在于，任何有趣的压缩算法都不会简单地将一个 token 转换为一个或多个具有明确定义的 token 结尾的字节。有时，单个 token 将是多个数据包。有时，一个数据包将包含许多 token 。对我来说幸运的是，我的代币大小很容易预测。另一方面，为了空间效率，我不能在每次添加时都写出每个数据包的大小或数据包的数量。

那么，如何在不需要添加大量元数据的情况下将所有压缩流多路复用/交织成单个流？我的印象是，这基本上是多媒体格式解决的那种问题，但我对这个话题的领域知识为零。有什么建议吗？我对算法、图书馆和论文很感兴趣。

最佳答案

例如，使用 zlib，您可以为三个流同时运行三个 deflate 实例。使用 deflate，您可以一次压缩一个 deflate block (使用 Z_BLOCK)，并使用 Z_SYNC_FLUSH 将其带到具有空存储 block 的字节边界。您可以交错这些放气 block ，因为它们是用一个单字节 header 生成的，每个 header 用于标识它来自三个流中的哪一个。然后你的解压器读入这些 deflate block 并用三个 inflate 实例解压它们，当它可用时从相应的未压缩数据 block 中提取你的 token 。

关于algorithm - 交织/多路复用压缩流，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50490346/

algorithm - 交织/多路复用压缩流

上一篇：algorithm - 计算对象在二叉树中的出现次数

下一篇：algorithm - 减少回溯算法的时间