hadoop - 在 Apache pig 中读取压缩 (.xz) 文件

我正在尝试读取使用 hadoop-xz 压缩的 .xz 文件使用 pig 脚本的编解码器。

我试过的示例代码是，

REGISTER hadoop-xz-1.4.jar
SET output.compression.enabled true;
SET output.compression.codec io.sensesecure.hadoop.xz.XZCodec;

msg = LOAD 'pigtest/newXZ.xz' USING PigStorage();
STORE msg INTO 'pigtest/output' USING PigStorage();
DUMP msg;

结果仍然是压缩格式。我做错了吗，还是我必须在 pig 里面使用 XZInputStream？

运行环境为HortonWorks Sandbox 2.2 (Hue)

最佳答案

取决于你想做什么。

您似乎想要读取 XZ 文件，所以我假设您需要设置输入编解码器而不是输出编解码器。

我不是 PIG 用户，但据我所知，它无法轻松处理自定义压缩(例如与 Hive 和 Streaming 不同)。

关于hadoop - 在 Apache pig 中读取压缩 (.xz) 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30231567/

上一篇：hadoop - 使用 Teradata 连接器的 Teradata 到 Hive 表导入工具

下一篇：linux - hive 脚本(hivequery.hql)文件中的这个符号是什么意思 "use ${word:word}"

相关文章：

python - 如何在使用流式 jar 时在 Oozie 中提及组合器

python - 如何减少通过 REST api 发送的数据的延迟

使用队列的 Java Pig 拉丁语句子翻译器

android - 如何在 Android 2.2 或更高版本中展开压缩的 tar 文件

hadoop - 无法在伪分布式模式下运行 Pig Script

json - 带有嵌套Json的Hadoop PIG

hadoop - 从 SQL Server 导入，数据类型未正确转换

hadoop - Pig Latin - 从不同的袋子中增加值(value)？

hadoop - 如何使 Hbase 对 Hadoop 2 中的名称节点故障具有弹性

c# - 有没有办法压缩内存中的对象并透明地使用它？