hadoop - 如何使用 pig 以 RC 格式存储分区数据?

标签 hadoop apache-pig rc

我想知道是否有 UDF 或其他东西可以以 RC 格式以分区方式存储我的数据。我知道有 org.apache.pig.piggybank.storage.MultiStorage但它只对某些压缩格式有效。我想以 RC 格式存储我的数据,但使用 MultiStorage 提供的相同分区存储结构。

谢谢, 伊姆蒂亚兹

最佳答案

piggybank 或其他替代方案都没有这样的解决方案。我遇到过类似的问题。但由于其他一些要求而放弃了实现。唯一可用的解决方案是扩展 MultiStorage udf 以提供 RC 存储格式。

Twitter 已开源其 RC 文件存储。你可以从中得到帮助。 http://grepcode.com/file/repo1.maven.org/maven2/com.twitter.elephantbird/elephant-bird-rcfile/3.0.8/com/twitter/elephantbird/pig/store/RCFilePigStorage.java

关于hadoop - 如何使用 pig 以 RC 格式存储分区数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21004808/

相关文章:

hadoop - 如何找到 Cent OS 虚拟机的实际 IP 地址?

map - pig 中 map 的组键值

Angular 2 新路由器 - 检测 404

bash - 提示中的 Git 分支

cron - 启动/重启后在 FreeBSD 中运行脚本

hadoop - Hive JDBC 连接返回 "query did not generate a resultset"

hadoop - Mapreduce - 无法获得正确的 key

java - 了解用于重叠计算的 mapreduce 算法

windows - Pig 0.13.0 在 Windows 8 上的安装

hadoop - Pig sum 因 +ve 和 -ve 值而失败