hadoop - 根据 pig 的字段比较元组

标签 hadoop apache-pig

(ABC,****,tool1,12)
(ABC,****,tool1,10)
(ABC,****,tool1,13)
(ABC,****,tool2,101)
(ABC,****,tool3,11)

以上是输入数据

以下是我在 pig 中的数据集。

Schema is : Username,ip,tool,duration

我想添加相同工具的持续时间

输出

(ABC,****,tool1,35)
(ABC,****,tool2,101)
(ABC,****,tool3,11

最佳答案

对持续时间使用 GROUP BY 和 SUM。

A = LOAD 'data.csv' USING PigStorage(',') AS (Username:chararray,ip:chararray,tool:chararray,duration:int);
B = GROUP A BY (Username,ip,tool);
C = FOREACH B GENERATE FLATTEN(group) AS (Username,ip,tool),SUM(A.duration);
DUMP C;

关于hadoop - 根据 pig 的字段比较元组，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38831861/

上一篇：sql - 如何动态地从配置单元表中删除分区？

下一篇：hadoop - Pig 命令问题 'Failed to read data from "/pigdata/student"'

相关文章：

hadoop - 如何跨集群从hive表复制到hive表？

java - flink 文档中给出的代码无法编译

hadoop - 如何在 pig 中总结2个日志文件

apache-pig - PigServer 还是 PigRunner？哪个更好？

hadoop - hortonworks 沙箱 pig 脚本

hadoop - 如何开发具有 hadoop 支持的应用程序

json - PIG中的JSONStorage问题

java - 在 Windows 上用 map reduce 程序创建一个 jar 文件，然后在 linux (hadoop) 上运行它

hadoop - 无法使用 Parquet Storer 存储 Pig 关系

java - Pig UDF 找不到 WritableComparable