hadoop - pig 数据类型 : Ordered Tuple v/s Unordered Bag

标签 hadoop apache-pig

引用 OReilly :

元组:数据元素的有序集合。 Bag :元组的无序集合。

我对 Pig 还很陌生,这可能是一个微不足道的问题,但我需要帮助来理解元组如何是元素的“有序”集合,而包不是。

谢谢。

最佳答案

想一想最简单的示例 - 一个格式良好、未排序的 CSV 文件。

当您将文件读入 PIG 时,每一行都是一个元组。字段的集合。每个字段都有它的位置;说“第一场”、“第三场”和“最后一场”是有道理的。

但是,这些行的顺序是没有意义的。同样,包中元组的顺序是任意的,不能依赖。

这里有一个有趣的概念讨论:How do I extract the first tuple from a generated bag (whose size might vary) in PIG?

关于hadoop - pig 数据类型 : Ordered Tuple v/s Unordered Bag,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35682393/

相关文章:

Hadoop-Hive |在 Hive 中将单行列转换为多行

java - 使用循环将数据添加到 HashMap

python - Pig Python UDF 和 lxml

hadoop - 如何在 Pig Latin 中的两列上进行外部连接

python - Hadoop pig latin 无法通过 python 脚本流式传输

hadoop - 尼菲 : how to use fileFileter for fetching files from hadoop?

hadoop - log.index(没有此类文件或目录)和任务进程退出,并且非零状态为126

hadoop - 如何使用 pig 或 hadoop fs 选项重命名具有特定扩展名的文件?

java - Hadoop java mapper -copyFromLocal 堆大小错误

apache-pig - pig 转储不能带表情?