使用PIG(0.14),我对以下用例感兴趣:我希望将原始JSON根据其键处理到多个输出目录中,并将结果(汇总数据)存储为JSON。 JSON具有不断发展的(动态)模式,该模式可以通过Elephant-Bird读取,并且(到目前为止)还没有引起任何问题。
我可以将输出存储在正确的目录中(使用MultiStorage),也可以存储为JSON(使用JsonStorage),但不能两者都存储。据我所知,没有可用于此目的的公开UDF。
我错过了什么吗?还是只是编写自己的UDF来执行此操作?这似乎是一个简单的用例,我以为会得到支持。
最佳答案
对于那些正在寻找答案的人;需要UDF。
可能(相对简单)将JsonStorage和MultiStorage的储钱 jar UDF组合在一起,以创建伪“JsonMultiStorage”类。
关于json - pig Json多层存储?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30187075/