目前,当我存储到 HDFS 时,它会创建许多部分文件。
有什么方法可以存储到单个 CSV 文件吗?
最佳答案
您可以通过几种方式做到这一点:
要设置所有 Pig 操作的 reducer 数量,您可以使用
default_parallel
属性 - 但这意味着每个步骤都将使用单个 reducer ,从而降低吞吐量:设置default_parallel 1;
在调用 STORE 之前,如果执行的操作之一是(COGROUP、CROSS、DISTINCT、GROUP、JOIN(内部)、JOIN(外部)和 ORDER BY),则可以使用
PARALLEL 1
关键字表示使用单个 reducer 来完成该命令:按 grp PARALLEL 1 分组;
参见Pig Cookbook - Parallel Features了解更多信息
关于apache-pig - 将输出存储到单个 CSV?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9910908/