我想知道是否有 UDF 或其他东西可以以 RC 格式以分区方式存储我的数据。我知道有 org.apache.pig.piggybank.storage.MultiStorage
但它只对某些压缩格式有效。我想以 RC 格式存储我的数据,但使用 MultiStorage 提供的相同分区存储结构。
谢谢, 伊姆蒂亚兹
最佳答案
piggybank 或其他替代方案都没有这样的解决方案。我遇到过类似的问题。但由于其他一些要求而放弃了实现。唯一可用的解决方案是扩展 MultiStorage udf 以提供 RC 存储格式。
Twitter 已开源其 RC 文件存储。你可以从中得到帮助。 http://grepcode.com/file/repo1.maven.org/maven2/com.twitter.elephantbird/elephant-bird-rcfile/3.0.8/com/twitter/elephantbird/pig/store/RCFilePigStorage.java
关于hadoop - 如何使用 pig 以 RC 格式存储分区数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21004808/