apache-pig - 将输出存储到单个 CSV?

标签 apache-pig

目前,当我存储到 HDFS 时,它会创建许多部分文件。

有什么方法可以存储到单个 CSV 文件吗?

最佳答案

您可以通过几种方式做到这一点:

  • 要设置所有 Pig 操作的 reducer 数量,您可以使用 default_parallel 属性 - 但这意味着每个步骤都将使用单个 reducer ,从而降低吞吐量:

    设置default_parallel 1;

  • 在调用 STORE 之前,如果执行的操作之一是(COGROUP、CROSS、DISTINCT、GROUP、JOIN(内部)、JOIN(外部)和 ORDER BY),则可以使用 PARALLEL 1 关键字表示使用单个 reducer 来完成该命令:

    按 grp PARALLEL 1 分组;

参见Pig Cookbook - Parallel Features了解更多信息

关于apache-pig - 将输出存储到单个 CSV?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9910908/

相关文章:

apache-pig - 在 Apache Pig 中的排名

java - Servlet 执行 Hadoop MapReduce 作业并显示结果

hadoop - 如何查看PIG作业的整体进度

hadoop - PiG + Cassandra + Hadoop

hadoop - 执行PIG脚本时出错

hadoop - Apache Pig - 说明命令错误

apache-pig - Pig进程多文件错误: ERROR 0: Error while executing ForEach at []

java - 安装 Apache Pig,为什么我看到 Hbase 和 Hive 正在安装?

hadoop - pig 脚本对 10 block 训练数据进行采样,pig 脚本被卡住了

hadoop - PIG TRIM 和 UPPER