hadoop - hdfs将如何选择要删除的副本?

标签 hadoop hdfs

假设:我有一个 hadoop 集群,其中每个数据幻灯片都设置为有 3 个副本。

有一天,一个datanode被拔掉(假设里面存储的数据没问题),然后hdfs会为这个节点存储的数据生成新的副本,这样data slide仍然有3个副本。 但是如果第二天再插上datanode,有些data slide有4个副本,那么hdfs就得删除4个副本中的1个。

我的问题是 hdfs 如何选择要删除的那个?随机?或者只删除最新的(这意味着数据节点将被清除)?

最佳答案

Question: But if Datanode is repaired and starts to work again, some data slide have 4 copies, then HDFS has to delete 1 of 4 copies

正如您所提到的,在 HDFS 中,当任何 Datanode 未插入的平衡器将在另一个节点中创建丢失的副本以维护 block 的适当复制因子

现在如果我们想将相同/不同的节点包含到 HDFS 中,我们执行格式化并将节点包含到集群中。因此,在任何时间点,集群中都不会存在过多的复制 block 。

关于hadoop - hdfs将如何选择要删除的副本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41178399/

相关文章:

hadoop - 我们如何检查 HDFS 文件夹中是否有可用的 avro 文件?

hadoop - 有什么办法可以将本地hadoop与jenkins集成?

hadoop - 从hadoop网址读取数据时未找到文件异常

hbase - 如何从 HBase 获取图像

hadoop - 使用 Hadoop 将数据加载到 Hive 表中

hadoop - hive 表或 View ?哪个应该是正确的方法?

hadoop - 通过通用选项-文件的Hadoop分布式缓存

sorting - 在 Hadoop(单节点集群)上运行排序示例

map - 提取失败太多

hadoop - 将边缘设备的平面数据文件导入HDFS并进行处理