数据集 - 包含 PostId 和 userID
20 1
21 2
45 3
85 1
48 1
98 1
74 1
96 2
63 2
33 3
44 3
55 3
66 3
77 3
我想访问最大没有的userID。帖子的
pig 代码
A = load '/home/cloudera/Desktop/post.txt' as (postid:chararray, userid:chararray);
B = load '/home/cloudera/Desktop/user.txt' as (name:chararray, id:chararray);
C = group A by userid;
D = foreach C generate group,COUNT(A.postid) as count;
E = order D by count DESC;
F = limit D 1;
它给出输出 -
(3,6)
现在执行 F 语句后,从 id 与 A.userid 相同的 user.txt 访问用户名的 PIG 语句应该是什么?
最佳答案
添加另一个语句从关系 F 中获取第一列
G = FOREACH F GENERATE $0;
DUMP G;
关于hadoop - 访问 pig 中的模式值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47365321/