json - pig Json多层存储?

标签 json hadoop apache-pig

使用PIG(0.14),我对以下用例感兴趣:我希望将原始JSON根据其键处理到多个输出目录中,并将结果(汇总数据)存储为JSON。 JSON具有不断发展的(动态)模式,该模式可以通过Elephant-Bird读取,并且(到目前为止)还没有引起任何问题。

我可以将输出存储在正确的目录中(使用MultiStorage),也可以存储为JSON(使用JsonStorage),但不能两者都存储。据我所知,没有可用于此目的的公开UDF。

我错过了什么吗?还是只是编写自己的UDF来执行此操作?这似乎是一个简单的用例,我以为会得到支持。

最佳答案

对于那些正在寻找答案的人;需要UDF。

可能(相对简单)将JsonStorage和MultiStorage的储钱 jar UDF组合在一起,以创建伪“JsonMultiStorage”类。

关于json - pig Json多层存储?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30187075/

相关文章:

database - Impala 分区查询运行缓慢

hadoop - pig 错误 2118 : Input path does not exist

java - 运行第一个HIPI程序时,出现JSON错误。我应该在哪里添加它以及如何添加?

json - 如何使 swagger-ui 根据需要显示 JSON 中的某些字段(使用 springfox-swagger2 和 ui)

php - OctoberCMS db 查询和 json

hadoop - 使用hadoop和相关技术对大量不同格式的文档进行索引和搜索

C、JSON (Jansson) 和一些 autotools 构建问题

performance - HBase 客户端写入性能差

apache-pig - pig : Receiving error while grouping

hadoop - Pig - 压扁数据包