apache-pig - 将输出存储到单个 CSV？

标签 apache-pig

目前，当我存储到 HDFS 时，它会创建许多部分文件。

有什么方法可以存储到单个 CSV 文件吗？

最佳答案

您可以通过几种方式做到这一点:

要设置所有 Pig 操作的 reducer 数量，您可以使用 default_parallel 属性 - 但这意味着每个步骤都将使用单个 reducer ，从而降低吞吐量:

设置default_parallel 1;
在调用 STORE 之前，如果执行的操作之一是(COGROUP、CROSS、DISTINCT、GROUP、JOIN(内部)、JOIN(外部)和 ORDER BY)，则可以使用 PARALLEL 1 关键字表示使用单个 reducer 来完成该命令:

按 grp PARALLEL 1 分组；

参见Pig Cookbook - Parallel Features了解更多信息

关于apache-pig - 将输出存储到单个 CSV？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9910908/

上一篇：sql-server - 如何使用查询表达式 crm 进行内连接

下一篇：sql-server - 日期格式为 dd/MM/yyyy hh :mm:ss

相关文章：

apache-pig - 在 Apache Pig 中的排名

java - Servlet 执行 Hadoop MapReduce 作业并显示结果

hadoop - 如何查看PIG作业的整体进度

hadoop - PiG + Cassandra + Hadoop

hadoop - 执行PIG脚本时出错

hadoop - Apache Pig - 说明命令错误

apache-pig - Pig进程多文件错误: ERROR 0: Error while executing ForEach at []

java - 安装 Apache Pig，为什么我看到 Hbase 和 Hive 正在安装？

hadoop - pig 脚本对 10 block 训练数据进行采样，pig 脚本被卡住了

hadoop - PIG TRIM 和 UPPER

©2024 IT工具网联系我们