hadoop - 将Pig “GROUP BY”的结果存储到HDFS中

标签 hadoop apache-pig

我正在寻找一种方法来将Pig中的“group by”命令的输出存储到文件中。

(D1,{(A1,null,C1,D1,E1),(null,B1,C1,D1,E1),(A2,null,null,D1,E2)})
(C1,{(A1,null,C1,D1,E1),(null,B1,C1,D1,E1)})

我已经尝试了store命令,但是没有完全按照显示的方式复制数据。
store F into '/tmp/group_out';

是否有其他方法可以将数据复制到文件中,使其显示方式相同?

最佳答案

默认的PigStorage函数(使用STORE调用)在某种程度上是可配置的:http://pig.apache.org/docs/r0.12.0/func.html#pigstorage-您可以设置例如字段和记录定界符。

如果您需要一种特殊的格式来存储数据,则必须实现custom Store UDF

关于hadoop - 将Pig “GROUP BY”的结果存储到HDFS中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21186916/

相关文章:

使用 sparklyr 中的 spark_apply 在 Hadoop 中运行系统命令

hadoop - Mahout命令行示例

hadoop - pig 脚本用-in date函数替换\

java - Pig Udf 在显示结果

hadoop - 如何从 PIG 中生成的包(其大小可能不同)中提取第一个元组?

hadoop - Pig 字段中的拆分字符

hadoop - 禁用动态映射在ElasticSearch中不起作用

hadoop - pig : count of each product in distinctive Locations

hadoop - hive 或 pig 动态表

java - 将之前写入 HDFS 的 lucene 索引加载到 RamDirectory