假设我有一堆从 Pig UDF 生成的数据包,其中包含多个字符串元组。我怎样才能将它们全部从数据包中拉出来并简单地使每个字符串成为它自己的数据“行”。
databags = FOREACH 数据生成 pigUdfThatMakesDataBags(data::someText);
strings = FOREACH 数据包 { ??? };
最佳答案
databags = FOREACH data GENERATE pigUdfThatMakesDataBags(data::someText);
datatuples = FOREACH databags FLATTEN($0); -- Bag to Tuples
strings = FOREACH datatuples FLATTEN(TOBAG(*)); -- Tuples to Tokens'
DUMP strings;
关于hadoop - "Flattening"Pig中的一个数据包,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35609345/