想知道是否有人遇到过这个问题,以及如何解决。
我的Pig脚本“需要”输出为XML。主体建立XML的方式如下:
<Item><Val1>abc</Val1><Val2>qwe</Val2></Item>
<Item><Val1>tre</Val1><Val2>bnm</Val2></Item>
问题在于它不是有效的XML。我需要这样包装:
<Items>
<Item>...</Item>
</Items>
但是如何在Pig / Hadoop中完成呢?输出文件被拆分成多个XXXXX部分文件,因此只能在合并时完成。
也许XML完全是错误的方法,并且总是JSON!
谢谢
邓肯
最佳答案
这是一种可能的解决方案。您可以在GROUP ALL
之前立即执行STORE
,以确保仅输出一个part-XXXXX
文件,这将使您可以使用所需的<Items>
标记包装整个XML块。
关于xml - pig 输出为XML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18190482/