我开始使用Apache Pig,并且尝试转换csv文件。
如果输入如下所示:
1,A,10,SS,11
,B,11,BB,12
,D,12,TT,13
2,A,20,GG,11
,C,22,YY,9
,E,30, ,
是否有可能到达下面的输出?
Number, Type1, Value, Type2, Value,
1, A, 10, SS, 11,
1, B, 11, BB, 12,
1, D, 12, TT, 13,
2, A, 20, GG, 11,
2, C, 22, YY, 9,
2, E, 30, , ,
CSV包含由第一列中的数字标识的部分。第二列中的值在每个部分中都是可变的。每个部分之间的行数也是可变的。
Apache-Pig是解决此类问题的好工具,有人会如何处理此类信息?
最佳答案
首先使用bash shell脚本处理此CSV文件,例如存在null的地方,添加高于sed或awk的非null值,然后将修改后的文件放入HDFS ..从那里可以使用Pig启动Transformation。
关于hadoop - Apache-Pig,转换子组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45944775/