java - Deflater.deflate 和小输出缓冲区

标签 java deflate

我看到一个奇怪的情况,Java 8u45 和 java.util.Deflater.deflate(byte[] b, int off, int len, int flush) 的输出缓冲区很小与小输出缓冲区一起使用时的方法。

(我正在编写一些与 WebSocket 即将推出的 permessage-deflate 扩展相关的低级网络代码,因此小缓冲区对我来说是现实)

示例代码:

package deflate;

import java.nio.charset.StandardCharsets;
import java.util.zip.Deflater;

public class DeflaterSmallBufferBug
{
    public static void main(String[] args)
    {
        boolean nowrap = true;
        Deflater deflater = new Deflater(Deflater.DEFAULT_COMPRESSION,nowrap);

        byte[] input = "Hello".getBytes(StandardCharsets.UTF_8);

        System.out.printf("input is %,d bytes - %s%n",input.length,getHex(input,0,input.length));

        deflater.setInput(input);

        byte[] output = new byte[input.length];

        // break out of infinite loop seen with bug
        int maxloops = 10;

        // Compress the data
        while (maxloops-- > 0)
        {
            int compressed = deflater.deflate(output,0,output.length,Deflater.SYNC_FLUSH);
            System.out.printf("compressed %,d bytes - %s%n",compressed,getHex(output,0,compressed));

            if (compressed < output.length)
            {
                System.out.printf("Compress success");
                return;
            }
        }

        System.out.printf("Exited compress (maxloops left %d)%n",maxloops);
    }

    private static String getHex(byte[] buf, int offset, int len)
    {
        StringBuilder hex = new StringBuilder();
        hex.append('[');
        for (int i = offset; i < (offset + len); i++)
        {
            if (i > offset)
            {
                hex.append(' ');
            }
            hex.append(String.format("%02X",buf[i]));
        }
        hex.append(']');
        return hex.toString();
    }
}

在上述情况下,我尝试使用长度为 5 字节的输出缓冲区为输入 "Hello" 生成压缩字节。

我会假设以下结果字节:

buffer 1 [ F2 48 CD C9 C9 ]
buffer 2 [ 07 00 00 00 FF ]
buffer 3 [ FF ]

翻译成

[ F2 48 CD C9 C9 07 00 ] <-- the compressed data
[ 00 00 FF FF ]          <-- the deflate tail bytes

但是,当 Deflater.deflate() 与小缓冲区一起使用时,此正常循环会在 5 字节的压缩数据处无限继续(似乎只出现在 5 字节或更小的缓冲区中)。

运行上述演示的结果输出......

input is 5 bytes - [48 65 6C 6C 6F]
compressed 5 bytes - [F2 48 CD C9 C9]
compressed 5 bytes - [07 00 00 00 FF]
compressed 5 bytes - [FF 00 00 00 FF]
compressed 5 bytes - [FF 00 00 00 FF]
compressed 5 bytes - [FF 00 00 00 FF]
compressed 5 bytes - [FF 00 00 00 FF]
compressed 5 bytes - [FF 00 00 00 FF]
compressed 5 bytes - [FF 00 00 00 FF]
compressed 5 bytes - [FF 00 00 00 FF]
compressed 5 bytes - [FF 00 00 00 FF]
Exited compress (maxloops left -1)

如果您使输入/输出大于 5 个字节,那么问题似乎就消失了。 (只需将输入字符串设为 "Hellox" 即可自行测试)

使缓冲区为 6 字节的结果(输入为 "Hellox")

input is 6 bytes - [48 65 6C 6C 6F 78]
compressed 6 bytes - [F2 48 CD C9 C9 AF]
compressed 6 bytes - [00 00 00 00 FF FF]
compressed 5 bytes - [00 00 00 FF FF]
Compress success

即使是这些结果对我来说也有点古怪,因为似乎存在 2 个压缩尾字节序列。

所以,我想我的最终问题是,我是否遗漏了一些关于 Deflater 用法的东西,这让我觉得很奇怪,或者这是否指向 JVM Deflater< 中可能存在的错误 实现本身?

更新:2015 年 8 月 7 日

此发现已被接受为 bugs.java.com/JDK-8133170

最佳答案

这是一个 zlib“特性”,记录在 zlib.h 中:

In the case of a Z_FULL_FLUSH or Z_SYNC_FLUSH, make sure that avail_out is greater than six to avoid repeated flush markers due to avail_out == 0 on return.

发生的事情是每次使用 Z_SYNC_FLUSH 调用 deflate() 时都会插入一个五字节刷新标记。由于您没有提供足够的输出空间来获取标记,您再次调用以获得更多输出,但要求它同时插入另一个刷新标记。

您应该做的是使用 Z_SYNC_FLUSH 一次调用deflate(),然后使用额外的获取所有可用的输出>deflate() 调用,如有必要,使用 Z_NO_FLUSH(或 Java 中的 NO_FLUSH)。

关于java - Deflater.deflate 和小输出缓冲区,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31861983/

相关文章:

java - Spring 4框架编译错误

java - Hbase Java API TableNotDisabledException

java - 如何序列化java中实现的链表?

json - 从压缩的 HTTP : invalid character looking for beginning of value 中解码 JSON

java - 将 Javafx 应用程序 jar 文件转换为 apk 文件 (Netbeans)

java - 部署 Apache Camel 应用程序时出现警告

java - Zlib Java 与 C 的基准测试

java - 如何使用 Gzip (Deflate) 创建高度可压缩的文件?

android - 如何 "deflate"一个 ViewStub?

user-interface - GUI打开一个zlib文件