hadoop - HDFS复制因子是如何决定的?

标签 hadoop hdfs fault-tolerance

HDFS中的复制因子必须至少为3。尽管选择它为3的主要目的是容错,并且机架故障的可能性远小于节点故障的可能性,复制因子至少为 3 背后还有其他原因吗?

最佳答案

复制因子没有理由必须是 3,这是 hadoop 自带的默认值。您可以为 HDFS 中的每个文件单独设置复制级别。除了容错之外,拥有副本还允许使用相同数据的作业并行运行。此外,如果有数据的副本,hadoop 可以尝试运行同一任务的多个副本,并选择最先完成的副本。如果由于某种原因盒子运行缓慢,这很有用。

关于hadoop - HDFS复制因子是如何决定的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9116376/

相关文章:

hadoop - 如何解决 java.lang.RuntimeException : PipeMapRed. waitOutputThreads() : subprocess failed with code 2?

hadoop - 在 MapReduce 中因为/n 读取被分解成两行的记录

mysql - hive可以加入mysql吗?

hadoop - namenode 运行端口 53210 或 50070 的确切位置

fault-tolerance - HP/Tandem NonStop 如何实现无备件的单一故障 FT?

architecture - 容错软件架构

java - 在 CORBA 中实现复制和容错

hadoop - 在本地计算机上练习Hadoop

hadoop - 来自 ambari 的 Data-node Alive 不稳定

java - 从 Windows 使用 Java 和 Kerberos key 表访问 Cloudera 上的 HDFS