HDFS中的复制因子必须至少为3。尽管选择它为3的主要目的是容错,并且机架故障的可能性远小于节点故障的可能性,复制因子至少为 3 背后还有其他原因吗?
最佳答案
复制因子没有理由必须是 3,这是 hadoop 自带的默认值。您可以为 HDFS 中的每个文件单独设置复制级别。除了容错之外,拥有副本还允许使用相同数据的作业并行运行。此外,如果有数据的副本,hadoop 可以尝试运行同一任务的多个副本,并选择最先完成的副本。如果由于某种原因盒子运行缓慢,这很有用。
关于hadoop - HDFS复制因子是如何决定的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9116376/