hadoop - 在 pig 中有条件地分组记录

标签 hadoop apache-pig

我有一个文件，其中有2列作为Column1和Column2并保存以下记录-

File in HDFS

记录1 A是主记录，记录2 Column2保存与A链接的信息，类似地，与B C和D链接的信息。我正在寻找的是收集这些信息并获得以下所需的输出。

Desired output look like
我不能在HDFS文件中进行任何修改，只能在hadoop环境中进行任何修改。
如何做到这一点？任何帮助!

最佳答案

加载数据后，

A = load '' as col1,col2;

B =  FOREACH A GENERATE (col1 is null?substr(col2,1):col1),col2;

关于hadoop - 在 pig 中有条件地分组记录，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38085308/

上一篇：bash - 在Docker容器中运行脚本

下一篇：Docker-compose build 缺少容器中的一些包内容

相关文章：

hadoop - PIG 脚本根据指定的单词将大文本文件拆分成多个部分

hadoop - 使用hadoop处理非常小的文件

hadoop - CDH5 上的启动/停止 hadoop hdfs/mapred 脚本在哪里

hadoop - Apache Mahout 数据库到序列文件

regex - hive 正则表达式

hadoop - 为什么会有 Pig 和 Hive

cassandra - Cassandra 中的复合键与 Pig

hadoop - reshape pig 中的数据 - 将行值更改为列名

hadoop - pig : Slow Group By operator

python - Pig Hadoop Stream 帮助