加载和分组记录后,如何将这些分组的记录存储到多个文件中,每组一个 (=userid)?
records = LOAD 'input' AS (userid:int, ...);
grouped_records = GROUP records BY userid;
我正在使用 Apache Pig 版本 0.8.1-cdh3u3(已导出)
最佳答案
确实有一个MultiStorage在 Piggybank 上课这正是我想要的 - 它按指定属性(在我的示例中的索引“0”处)拆分记录:
STORE records INTO 'output' USING org.apache.pig.piggybank.storage.MultiStorage('output', '0', 'none', ',');
关于java - 如何使用 Pig 将分组记录存储到多个文件中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9314449/