java - 如何使用 Pig 将分组记录存储到多个文件中?

标签 java hadoop apache-pig

加载和分组记录后,如何将这些分组的记录存储到多个文件中,每组一个 (=userid)?

records = LOAD 'input' AS (userid:int, ...);
grouped_records = GROUP records BY userid;

我正在使用 Apache Pig 版本 0.8.1-cdh3u3(已导出)

最佳答案

确实有一个MultiStoragePiggybank 上课这正是我想要的 - 它按指定属性(在我的示例中的索引“0”处)拆分记录:

STORE records INTO 'output' USING org.apache.pig.piggybank.storage.MultiStorage('output', '0', 'none', ',');

关于java - 如何使用 Pig 将分组记录存储到多个文件中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9314449/

相关文章:

java - Tomcat 中的 ResourceLink 元素不起作用

Azure 上的 Node.js 和 HBase (HDInsight)

hadoop - 如何在 pig 拉丁语中进行分组后排序和限制而不破坏工作

hadoop - Apache Pig-从RCFiles存储和加载

hadoop - pig 分组用户,同时维护其他字段

java - 文件更改时获取 JAX-RS java.lang.NullPointerException

java - 如何检查数据库中的重复条目?

java - 使用 openssl 和 -subj 参数在 Java 中生成 CSR

java - 在Impala中创建外部表-错误

apache-pig - Apache Sqoop/Pig一致的数据表示/处理