我正在尝试读取使用 hadoop-xz 压缩的 .xz 文件使用 pig 脚本的编解码器。
我试过的示例代码是,
REGISTER hadoop-xz-1.4.jar
SET output.compression.enabled true;
SET output.compression.codec io.sensesecure.hadoop.xz.XZCodec;
msg = LOAD 'pigtest/newXZ.xz' USING PigStorage();
STORE msg INTO 'pigtest/output' USING PigStorage();
DUMP msg;
结果仍然是压缩格式。我做错了吗,还是我必须在 pig 里面使用 XZInputStream
?
运行环境为HortonWorks Sandbox 2.2 (Hue)
最佳答案
取决于你想做什么。
您似乎想要读取 XZ 文件,所以我假设您需要设置输入编解码器而不是输出编解码器。
我不是 PIG 用户,但据我所知,它无法轻松处理自定义压缩(例如与 Hive 和 Streaming 不同)。
关于hadoop - 在 Apache pig 中读取压缩 (.xz) 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30231567/