hadoop - HDFS +不同磁盘大小的节点+数据量选择策略

标签 hadoop hdfs ambari hdp

可以说我们有以下集群，其中包含以下详细信息

10个节点的HDFS群集，其中4个具有磁盘大小-10 TB，6个具有磁盘大小-1TB

在Hadoop-2.6，cloudera-5.8上，如果数据节点计算机上的磁盘大小不同，我们可以将默认值从循环更改为可用空间

例

查看dfs.datanode.fsdataset.volume.choosing.policy。默认情况下，此选项设置为循环，但是由于您具有非对称磁盘设置，因此应将其更改为可用空间。

由于我们拥有hortonwoks HDP集群版本2.6.5，

我们正在寻找相同的能力

所以我们搜索ambari HDFS-> config
但是我们找不到关于round-robin / available space.的配置

剂量HDP 2.6.5 ambari集群可以提供此功能吗？

我们的目标是平衡所有磁盘上的数据，考虑到某些磁盘较小，而另一些磁盘较小

最佳答案

我不熟悉任何此类平衡规则或属性，但是您可以在Ambari配置中应用节点标签，以便您的数据节点将使用不同的配置(例如数据节点的安装点)加载。

我完成重新平衡的唯一方法是通过HDFS重新平衡CLI

您还可以尝试将dfs.datanode.fsdataset.volume.choosing.policy属性放入自定义hdfs-site.xml部分，但是根据我发现的Cloudera论坛，默认为Round Robin，不建议使用可用空间

如果您仍然要将其设置为可用空间属性，则为org.apache.hadoop.hdfs.server.datanode.fsdataset.AvailableSpaceVolumeChoosingPolicy

关于hadoop - HDFS +不同磁盘大小的节点+数据量选择策略，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59639479/

上一篇：scala - 如何在scala中修复foreach()缺少的参数类型

下一篇：apache-spark - Spark:整个数据集中在一个执行器中

hadoop - 如何使用Sqoop仅导入新数据？

hadoop - 如何升级ambari中的组件

Maven 无法解析 hadoop 项目的依赖项

java - 仅在完全写入并关闭后才从 HDFS 读取文件

hadoop - 安装Spark Hana连接器后HDFS损坏的文件

amazon-web-services - 无法将 AWS 主机注册到 Ambari 服务器

python - 管道命令有效，但Mapreduce无效

hadoop - 映射或归约任务的临时输出数据在哪里

hadoop - 运行时异常 : Error in configuring object with null pointer exception while running my UDAF?