hadoop - Pig Latin 中的 FOREACH 多个数据

标签 hadoop apache-pig

我可以用 Pig Latin 做这样的事情吗?

data1 = LOAD 'hadoop/text1.txt' AS (line:chararray);
data2 = LOAD 'hadoop/text2.txt' AS (line:chararray);

mixed = FOREACH data1, data2 GENERATE data1:line, data2:line;

最佳答案

一般来说,按照您的要求做是没有意义的,因为数据将由多个映射器加载,可能一次加载一行。不能保证相同的映射器会看到相应的行,也不能保证映射器知道他们正在读取哪个 block 的哪一行。正如 WinnieNicklaus 提到的,最好的办法是标记线条并进行连接。

关于hadoop - Pig Latin 中的 FOREACH 多个数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13397182/

相关文章:

hadoop - 如何使用 hive/pig 查找唯一连接的数量

hadoop - hadoop:FileSystem的copyToLocalFile方法无法复制整个文件

java - Hadoop Map Reduce 字数随机错误 : Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out

java - linux 上 java 进程的高 iowait

hadoop - 映射前在 Hadoop Mapper 中查询 DBMS 中的数据

hadoop - pig 中未命名列的总和

hadoop - 如何在 Pig 相同模式中加入 2 个数据集

hadoop - Hadoop 从 1.0 升级到 2.2.0 的问题

hadoop - 无法使用 ParquetStorer 存储整数数据

pig 的 REGEX_EXTRACT 不起作用