hadoop - 访问 pig 中的模式值

标签 hadoop apache-pig

数据集 - 包含 PostId 和 userID

20    1
21    2
45    3
85    1
48    1
98    1
74    1
96    2
63    2
33    3
44    3
55    3
66    3
77    3

我想访问最大没有的userID。帖子的

pig 代码

A = load '/home/cloudera/Desktop/post.txt' as (postid:chararray, userid:chararray);

B = load '/home/cloudera/Desktop/user.txt' as (name:chararray, id:chararray);

C = group A by userid;

D = foreach C generate group,COUNT(A.postid) as count;

E = order D by count DESC;

F = limit D 1;

它给出输出 -

(3,6)

现在执行 F 语句后,从 id 与 A.userid 相同的 user.txt 访问用户名的 PIG 语句应该是什么?

最佳答案

添加另一个语句从关系 F 中获取第一列

G = FOREACH F GENERATE $0;
DUMP G;

关于hadoop - 访问 pig 中的模式值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47365321/

相关文章:

optimization - 优化 Pig 请求

java - Hadoop:二级排序不起作用

hadoop - 使用 Hadoop 上的 Pig 按层级根据事件频率分配用户

azure - 如何从 Hadoop 中的 Azure Blob 存储读取数据?

java - 将大型 gzip 数据文件上传到 HDFS

hadoop - 等效YARN MRv2 JobClient

hadoop - Foreach inside pig 中的 Foreach

json - 如何使用 Pig 读取非分隔的 JSON?

java - 如何使用eclipse编写并执行PIG Latin

hadoop - 在 EMR 上运行 Pig 脚本