hadoop - 在 PIG 中一次左外连接超过 2 个关系

标签 hadoop apache-pig

我正在尝试在 pig 的单个语句中对 2 个以上的关系执行左外连接。可能吗?

问候 哈里什

最佳答案

不幸的是,一步中的多路连接仅适用于内部连接。取自the official documentation :

Usage

...

Outer joins will only work for two-way joins; to perform a multi-way outer join, you will need to perform multiple two-way outer join statements.

因此,在他们添加可能性之前,这不会很快出现(没有开放的 JIRA 正在处理它),您将需要在 2 个语句中完成:

A = LOAD 'a' AS (a:chararray,b:int);
B = LOAD 'b' AS (a:chararray,b:chararray);
C = LOAD 'c' AS (a:chararray,b:chararray);
D = JOIN A by $0 LEFT OUTER, B BY $0;
E = JOIN D by $0 LEFT OUTER; C BY $0;

关于hadoop - 在 PIG 中一次左外连接超过 2 个关系,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32186227/

相关文章:

hadoop - 如何使用配置单元计算由 "|"分隔符分隔的每列中的单词数?

hadoop - Hive在RIAK CS中的S3上创建表

hadoop - 在正斜杠和反斜杠之间过滤数据

command-line - Pig 安装后 Cmd 找不到 Hadoop

ruby-on-rails - PIG_HOME 路径 ubuntu 的问题

hadoop - Apache Pig 中的连接错误

hadoop - 从 hdfs 与本地目录读取文件

hadoop - 在具有困惑数据且未修改时间列的表上以sqoop增量导入

hadoop - hive 问题开始

java - 从 Pig 获取字段模式的名称