algorithm - 交织/多路复用压缩流

标签 algorithm stream compression deflate lzw

我正在寻找一个好的压缩算法或库,让我可以将多个压缩数据流交织成一个数据流,不会造成性能或压缩损失

更多背景信息:我一直在研究一种专用于特定应用程序的压缩格式。这种压缩格式对数据执行一堆特定领域的分析,然后将压缩数据输出为一堆流,每个流都被压缩(通常使用 LZW,但这不是一成不变的)。其中一个流,主要流,包含一堆 token 。来自主流的每个 token 都包含我需要推断出哪个辅助流包含我的下一个 token 的信息,我需要从该辅助流中读取多少解压缩字节,以及我需要做什么这个 token 。

到目前为止一切顺利,但我不想将我的最终数据作为一堆串联流发送,因为这需要我先接收到全部数据,然后才能对其进行有意义的处理。相反,我想将它们作为单个流发送,我可以在收到它时对其进行解码和处理。所以这基本上是想按照以下方式发送一些东西:

  • 来自主流的一个标记(使用用于主流的字典压缩);
    • 好的,这是标记“FooBar”,我知道标记“FooBar”后面总是跟有两个来自流“Foo”的标记,一个来自流“Bar”的标记;
  • 来自流“Foo”的两个标记(使用流“Foo”使用的字典压缩);
  • 来自流“Bar”的一个标记(使用用于流“Bar”的字典压缩);
  • 来自主流的一个 token (回到主流的压缩);
  • ...

这里的复杂之处在于,任何有趣的压缩算法都不会简单地将一个 token 转换为一个或多个具有明确定义的 token 结尾的字节。有时,单个 token 将是多个数据包。有时,一个数据包将包含许多 token 。对我来说幸运的是,我的代币大小很容易预测。另一方面,为了空间效率,我不能在每次添加时都写出每个数据包的大小或数据包的数量。

那么,如何在不需要添加大量元数据的情况下将所有压缩流多路复用/交织成单个流?我的印象是,这基本上是多媒体格式解决的那种问题,但我对这个话题的领域知识为零。有什么建议吗?我对算法、图书馆和论文很感兴趣。

最佳答案

例如,使用 zlib,您可以为三个流同时运行三个 deflate 实例。使用 deflate,您可以一次压缩一个 deflate block (使用 Z_BLOCK),并使用 Z_SYNC_FLUSH 将其带到具有空存储 block 的字节边界。您可以交错这些放气 block ,因为它们是用一个单字节 header 生成的,每个 header 用于标识它来自三个流中的哪一个。然后你的解压器读入这些 deflate block 并用三个 inflate 实例解压它们,当它可用时从相应的未压缩数据 block 中提取你的 token 。

关于algorithm - 交织/多路复用压缩流,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50490346/

相关文章:

c# - List<T> 中使用了哪种算法来动态分配内存?

c# - 在 Stream 中找到给定字节序列开始位置的最佳方法

c# - FileStream,从大文件中读取数据 block 。文件大小大于 int。如何设置偏移量?

c - fgets 用于 open 的等效函数

hadoop - 用纯Java从原始文件创建Lzo文件和Lzo索引文件

swift - 原生swift zip解压

c# - 如何有效地生成组合而不重复它们之间的特定数字

java - 具有组合和内循环和外循环可互换的动态编程?

huffman-code - 结合无损数据压缩算法

algorithm - SPOJ QCJ3(格伦迪-斯普拉格 + NIM)