hadoop - PIG-从一个大型输入中优化各种分组结构的最佳方法

标签 hadoop apache-pig

最佳答案

Pig会自动执行此优化。如果您始终将分组应用于原始数据，则所有分组都可以并行完成，并且将在单个map-reduce作业中执行。

假设您希望对每个分组执行相同的操作，则应定义一个宏，以便节省一些键入内容。例如:

DEFINE DO_STUFF(input, grp1, grp2) RETURNS result {
    grouped = GROUP $input BY ($grp1, $grp2);
    $result = FOREACH grouped GENERATE FLATTEN(group), COUNT(grouped.F), SUM(grouped.G);
};

data = LOAD '/path/to/txt' AS (A, B, C, D, E, F, G:int);
W = DO_STUFF(data, A, B);
X = DO_STUFF(data, A, C);
Y = DO_STUFF(data, A, D);
Z = DO_STUFF(data, B, C);

关于hadoop - PIG-从一个大型输入中优化各种分组结构的最佳方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17222210/

上一篇：python - Hadoop Mapreduce python命令行参数

下一篇：hadoop - 如何杀死使用hadoop jar命令开始的hadoop任务？

scala - 如何过滤掉 spark 数据框中的 bool 字段？

hadoop - Apache Pig 中的连接错误

mysql - 无法读取输入文件: Pig store to MYSQL using DBStorage

hadoop - 在 pig 中有条件地分组记录

java - pig 服务器 log4j :ERROR Could not instantiate class [org. apache.hadoop.log.metrics.EventCounter]

hadoop - 在hadoop中以多种输出格式使用part-m-00000

sql - 无法从Spark读取hadoop/hive外部S3表

sql - regexp_extract在Hive中查找值

hadoop - pig : Filter a string on a basis of a phrase