我正在使用S3DistCp将内容从 S3 复制到 Amazon EMR HDFS。对于某些作业,我的空间不足,希望通过减少复制因子来解决这个问题。但我看不到在工作层面实现这一目标的方法。有人可以帮忙解决这个问题吗?
最佳答案
您通常不会希望逐个作业地修改集群的复制因子。复制用于数据冗余(发生故障时)和提高性能(通过使数据更接近计算操作)。最好将集群保留为预定义值。
默认情况下,Amazon EMR 将 1-3 个核心节点的默认复制因子设置为 1,将 4-9 个核心节点的默认复制因子设置为 2,将 10 个以上核心节点的默认复制因子设置为 3。
理论上,您可以更改 dfs.replication
设置,但这可能不是解决当前问题的最佳方法。
关于hadoop - 运行 S3DistCp 时设置 HDFS 复制因子,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33600891/