hadoop - HDFS复制因子是如何决定的？

HDFS中的复制因子必须至少为3。尽管选择它为3的主要目的是容错，并且机架故障的可能性远小于节点故障的可能性，复制因子至少为 3 背后还有其他原因吗？

最佳答案

复制因子没有理由必须是 3，这是 hadoop 自带的默认值。您可以为 HDFS 中的每个文件单独设置复制级别。除了容错之外，拥有副本还允许使用相同数据的作业并行运行。此外，如果有数据的副本，hadoop 可以尝试运行同一任务的多个副本，并选择最先完成的副本。如果由于某种原因盒子运行缓慢，这很有用。

关于hadoop - HDFS复制因子是如何决定的？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9116376/

上一篇：java - 查找数据集中的 Top-K 记录

下一篇：hadoop - 标量只能与 PIG 中的投影一起使用

hadoop - 在 MapReduce 中因为/n 读取被分解成两行的记录

mysql - hive可以加入mysql吗？

hadoop - namenode 运行端口 53210 或 50070 的确切位置

fault-tolerance - HP/Tandem NonStop 如何实现无备件的单一故障 FT？

architecture - 容错软件架构

java - 在 CORBA 中实现复制和容错

hadoop - 在本地计算机上练习Hadoop

hadoop - 来自 ambari 的 Data-node Alive 不稳定

java - 从 Windows 使用 Java 和 Kerberos key 表访问 Cloudera 上的 HDFS