我有一个文件,其中有2列作为Column1和Column2并保存以下记录-
File in HDFS
记录1 A是主记录,记录2 Column2保存与A链接的信息,类似地,与B C和D链接的信息。我正在寻找的是收集这些信息并获得以下所需的输出。
Desired output look like
我不能在HDFS文件中进行任何修改,只能在hadoop环境中进行任何修改。
如何做到这一点?任何帮助!
最佳答案
加载数据后,
A = load '' as col1,col2;
B = FOREACH A GENERATE (col1 is null?substr(col2,1):col1),col2;
关于hadoop - 在 pig 中有条件地分组记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38085308/