xml - pig 输出为XML

标签 xml hadoop apache-pig

想知道是否有人遇到过这个问题,以及如何解决。

我的Pig脚本“需要”输出为XML。主体建立XML的方式如下:

<Item><Val1>abc</Val1><Val2>qwe</Val2></Item>

<Item><Val1>tre</Val1><Val2>bnm</Val2></Item>

问题在于它不是有效的XML。我需要这样包装:
<Items>
<Item>...</Item>
</Items>

但是如何在Pig / Hadoop中完成呢?输出文件被拆分成多个XXXXX部分文件,因此只能在合并时完成。

也许XML完全是错误的方法,并且总是JSON!

谢谢

邓肯

最佳答案

这是一种可能的解决方案。您可以在GROUP ALL之前立即执行STORE,以确保仅输出一个part-XXXXX文件,这将使您可以使用所需的<Items>标记包装整个XML块。

关于xml - pig 输出为XML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18190482/

相关文章:

java - JAXB - 如果为 false,则抑制 boolean 属性

scala - 通过键Spark写入多个输出-一个Spark作业

SQL:在行或其他表中定义的日期范围之间求和销售额

hadoop - 一台机器上的 pig

hadoop - 如何使用 HIVE 对表进行分区?

java - 如何将微调器的文本对齐到中心?

android - 使用 Android styles.xml 时是否有规则或异常

xml - 将 XML 属性转换为元素 XSLT

java.lang.OutOfMemoryError : Java heap space at java. util.Arrays.copyOf(Arrays.java:3236)

hadoop - 将文件复制到hadoop中没有此类文件或目录