hadoop - 在 Apache pig 中读取压缩 (.xz) 文件

标签 hadoop compression apache-pig xz

我正在尝试读取使用 hadoop-xz 压缩的 .xz 文件使用 pig 脚本的编解码器。

我试过的示例代码是,

REGISTER hadoop-xz-1.4.jar
SET output.compression.enabled true;
SET output.compression.codec io.sensesecure.hadoop.xz.XZCodec;

msg = LOAD 'pigtest/newXZ.xz' USING PigStorage();
STORE msg INTO 'pigtest/output' USING PigStorage();
DUMP msg;

结果仍然是压缩格式。我做错了吗,还是我必须在 pig 里面使用 XZInputStream

运行环境为HortonWorks Sandbox 2.2 (Hue)

最佳答案

取决于你想做什么。

您似乎想要读取 XZ 文件,所以我假设您需要设置输入编解码器而不是输出编解码器。

我不是 PIG 用户,但据我所知,它无法轻松处理自定义压缩(例如与 Hive 和 Streaming 不同)。

关于hadoop - 在 Apache pig 中读取压缩 (.xz) 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30231567/

相关文章:

python - 如何在使用流式 jar 时在 Oozie 中提及组合器

python - 如何减少通过 REST api 发送的数据的延迟

使用队列的 Java Pig 拉丁语句子翻译器

android - 如何在 Android 2.2 或更高版本中展开压缩的 tar 文件

hadoop - 无法在伪分布式模式下运行 Pig Script

json - 带有嵌套Json的Hadoop PIG

hadoop - 从 SQL Server 导入,数据类型未正确转换

hadoop - Pig Latin - 从不同的袋子中增加值(value)?

hadoop - 如何使 Hbase 对 Hadoop 2 中的名称节点故障具有弹性

c# - 有没有办法压缩内存中的对象并透明地使用它?