hadoop - "Flattening"Pig中的一个数据包

标签 hadoop apache-pig udf databags

假设我有一堆从 Pig UDF 生成的数据包,其中包含多个字符串元组。我怎样才能将它们全部从数据包中拉出来并简单地使每个字符串成为它自己的数据“行”。

databags = FOREACH 数据生成 pigUdfThatMakesDataBags(data::someText); strings = FOREACH 数据包 { ??? };

最佳答案

databags = FOREACH data GENERATE pigUdfThatMakesDataBags(data::someText);
datatuples = FOREACH databags FLATTEN($0);      -- Bag to Tuples 
strings = FOREACH datatuples FLATTEN(TOBAG(*)); -- Tuples to Tokens'
DUMP strings;

关于hadoop - "Flattening"Pig中的一个数据包,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35609345/

相关文章:

apache - 带有YARN的HBase引发错误

python - AWS EMR 从 S3 导入外部库

db2 - DB2 中的确定性函数

java - hive UDF 中的 FileNotFoundException

hadoop - 当 spark-shell 启动时,它有 SimpleUserGroupsMapping 的 RuntimeException

hadoop - Google Dataflow 的工作流程编排

hadoop - 如何在上一个工作流完成时触发 Oozie 工作流

apache-pig - 写一个组的唯一键作为文件夹名称和包内容作为记录?

java - 使用Cloudera快速启动vm和pig shell的Apache Pig输入路径错误

excel - 自定义excel公式函数UDF来计数条件格式