hadoop - 运行 S3DistCp 时设置 HDFS 复制因子

标签 hadoop amazon-web-services mapreduce emr

我正在使用S3DistCp将内容从 S3 复制到 Amazon EMR HDFS。对于某些作业,我的空间不足,希望通过减少复制因子来解决这个问题。但我看不到在工作层面实现这一目标的方法。有人可以帮忙解决这个问题吗?

最佳答案

您通常不会希望逐个作业地修改集群的复制因子。复制用于数据冗余(发生故障时)和提高性能(通过使数据更接近计算操作)。最好将集群保留为预定义值。

默认情况下,Amazon EMR 将 1-3 个核心节点的默认复制因子设置为 1,将 4-9 个核心节点的默认复制因子设置为 2,将 10 个以上核心节点的默认复制因子设置为 3。

理论上,您可以更改 dfs.replication 设置,但这可能不是解决当前问题的最佳方法。

关于hadoop - 运行 S3DistCp 时设置 HDFS 复制因子,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33600891/

相关文章:

hadoop - MapReduce作业默认配置的文档

hadoop - 安排每周 Oozie

hadoop - HDFS如何在VM上查找主机名端口号

javascript - AWS : ssm:GetParameters AccessDeniedException

amazon-web-services - AWS SNS 传输到 AWS Lambda 的可靠性

c# - 在 C# 中使用 DynamoDBEvents 调试 AWS 无服务器 Lambda 函数

hadoop - 我如何从所有抽象中看到 Hadoop 中实际的 Map Reduce 作业?

amazon-web-services - Hadoop单节点集群减慢AWS实例速度

oracle - Sqoop 使用钱包导入

hadoop - 哪个条件函数在 HIVE 中性能有效?如果还是情况?