hadoop - Apache-Pig,转换子组

标签 hadoop apache-pig

我开始使用Apache Pig,并且尝试转换csv文件。

如果输入如下所示:

1,A,10,SS,11
 ,B,11,BB,12
 ,D,12,TT,13
2,A,20,GG,11
 ,C,22,YY,9
 ,E,30,  ,

是否有可能到达下面的输出?
Number, Type1, Value, Type2, Value,
     1,     A,    10,    SS,    11,
     1,     B,    11,    BB,    12,
     1,     D,    12,    TT,    13, 
     2,     A,    20,    GG,    11,
     2,     C,    22,    YY,     9, 
     2,     E,    30,      ,      , 

CSV包含由第一列中的数字标识的部分。第二列中的值在每个部分中都是可变的。每个部分之间的行数也是可变的。

Apache-Pig是解决此类问题的好工具,有人会如何处理此类信息?

最佳答案

首先使用bash shell脚本处理此CSV文件,例如存在null的地方,添加高于sed或awk的非null值,然后将修改后的文件放入HDFS ..从那里可以使用Pig启动Transformation。

关于hadoop - Apache-Pig,转换子组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45944775/

相关文章:

hadoop - 跳过失败的 map 作业

hadoop - 我们可以在 oozie 工作流 xml 中访问整个 hadoop 作业日志吗?

hadoop - 在 Pig 中删除单列

hadoop - pig 按命令分组不起作用

hadoop - Pig Latin 跨组求和

scala - 我需要将配置单元表架构与包含csv文件架构的数据框进行比较

java - Windows 7配置上带有HBase的Titan

hadoop - 从hadoop HDFS数据中搜索

python - 使用 python 在远程机器上列出 HDFS 目录

hadoop - mapper run() 方法如何处理最后一条记录?