hadoop - 运行 S3DistCp 时设置 HDFS 复制因子

我正在使用S3DistCp将内容从 S3 复制到 Amazon EMR HDFS。对于某些作业，我的空间不足，希望通过减少复制因子来解决这个问题。但我看不到在工作层面实现这一目标的方法。有人可以帮忙解决这个问题吗？

最佳答案

您通常不会希望逐个作业地修改集群的复制因子。复制用于数据冗余(发生故障时)和提高性能(通过使数据更接近计算操作)。最好将集群保留为预定义值。

默认情况下，Amazon EMR 将 1-3 个核心节点的默认复制因子设置为 1，将 4-9 个核心节点的默认复制因子设置为 2，将 10 个以上核心节点的默认复制因子设置为 3。

理论上，您可以更改 dfs.replication 设置，但这可能不是解决当前问题的最佳方法。

关于hadoop - 运行 S3DistCp 时设置 HDFS 复制因子，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33600891/

相关文章：

hadoop - MapReduce作业默认配置的文档