java - 如何加入Pig输出文件?

标签 java hadoop apache-pig

pig 脚本输出了一些带有 .pig_header 和 .pig_schema 的部分文件(part-m-00000、part-m-00001 等),我正在尝试将它们作为一个输出 csv 加入。 我尝试使用hadoop合并

hadoop fs -getmerge ./output output.csv

但这些文件也与 .pig_schema 文件合并,因此它变得类似于

header1,header2,header3
{"fields":[{"name": "header1", "type":...}]}
value1,value2,value3

在不包含 .pig_schema 的情况下如何正确加入它们?

谢谢!

最佳答案

使用文件团:hadoop fs -getmerge ./output/part* output.csv

关于java - 如何加入Pig输出文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22151378/

相关文章:

java - 我如何使用 AWS java sdk 在 AWS 中创建负载均衡器

java - 无法在 JPPF 上运行节点脚本

apache - 当YARN运行时,提交的hadoop作业陷入“已接受”状态

excel - noob到Hadoop,上传带有列标题的制表符分隔文本文件,如何在Hive中使用它?

java - 在 PNG 图像上获取适合的矩形

java - Tomcat - 我可以强制非 https 吗?

hadoop - Hbase中的单行超过hbase.hregion.max.filesize时的性能问题

hadoop - Hadoop 级联的好教程

apache-pig - 创建 pig udf 架构时遇到问题

hadoop - 使用 pig 脚本对没有定界符的记录标记字段