hadoop - 群集主机具有比HDFS似乎更多的存储空间/可以访问吗?如何增加HDFS存储使用量?

标签 hadoop hdfs hortonworks-data-platform

在HDFS(HDP v3.1.0)的耗尽存储空间的情况下出现问题(这也导致在接受模式下挂起 Spark 作业的问题)。我假设存在一些配置,我可以让HDFS使用节点主机上节点上已经存在的更多存储空间,但是通过快速谷歌搜索确实不清楚。有经验的人可以帮忙吗?

在Ambari UI中,我看到了...
enter image description here
(从ambari UI)
enter image description here
(从NameNode UI)。

但是,当通过ambari UI查看整个主机时,似乎仍然在群集主机上剩余了很多空间(此列表中的最后4个节点是数据节点,每个节点总共有140GB的存储空间)
enter image description here

不确定哪些设置是相关的,但是这里是ambari中的常规设置:
enter image description here
我对“HDFS的保留空间”设置的解释是,它显示应该为非DFS(即本地FS)存储保留13GB的空间,因此看来HDFS已经用完了空间似乎没有任何意义。
我是错误地解释了吗?
其他任何HDFS配置应该在此问题中显示吗?

查看HDFS的磁盘使用情况,我看到...

[hdfs@HW001 root]$ hdfs dfs -du -h /
1.3 G    4.0 G    /app-logs
3.7 M    2.3 G    /apps
0        0        /ats
899.1 M  2.6 G    /atsv2
0        0        /datalake
39.9 G   119.6 G  /etl
1.7 G    5.2 G    /hdp
0        0        /mapred
92.8 M   278.5 M  /mr-history
19.5 G   60.4 G   /ranger
4.4 K    13.1 K   /services
11.3 G   34.0 G   /spark2-history
1.8 M    5.4 M    /tmp
4.3 G    42.2 G   /user
0        0        /warehouse

总共约269GB的consumed(也许设置shorter interval to spark-history cleanup也会有所帮助?)。看着HDFS上的可用空间,我看到...
[hdfs@HW001 root]$ hdfs dfs -df -h /
Filesystem                        Size     Used  Available  Use%
hdfs://hw001.ucera.local:8020  353.3 G  244.1 G     31.5 G   69%

但是ambari报告的容量为91%,所以这对我来说似乎很奇怪(除非我在这里误解了某些内容(LMK))。这也与我在查看hdfs datanode dirs所在的本地FS上的磁盘空间时看到的大致冲突...

[root@HW001 ~]# clush -ab -x airflowet df -h /hadoop/hdfs/data
HW001: df: ‘/hadoop/hdfs/data’: No such file or directory
airflowetl: df: ‘/hadoop/hdfs/data’: No such file or directory
---------------
HW002
---------------
Filesystem                       Size  Used Avail Use% Mounted on
/dev/mapper/centos_mapr001-root  101G   93G  8.0G  93% /
---------------
HW003
---------------
Filesystem                       Size  Used Avail Use% Mounted on
/dev/mapper/centos_mapr001-root  101G   94G  7.6G  93% /
---------------
HW004
---------------
Filesystem                       Size  Used Avail Use% Mounted on
/dev/mapper/centos_mapr001-root  101G   92G  9.2G  91% /
---------------
HW005
---------------
Filesystem                       Size  Used Avail Use% Mounted on
/dev/mapper/centos_mapr001-root  101G   92G  9.8G  91% /

block report中查找hdfs根...

[hdfs@HW001 root]$ hdfs fsck / -files -blocks
.
.
.
Status: HEALTHY
 Number of data-nodes:  4
 Number of racks:               1
 Total dirs:                    8734
 Total symlinks:                0

Replicated Blocks:
 Total size:    84897192381 B (Total open files size: 10582 B)
 Total files:   43820 (Files currently being written: 10)
 Total blocks (validated):      42990 (avg. block size 1974812 B) (Total open file blocks (not validated): 8)
 Minimally replicated blocks:   42990 (100.0 %)
 Over-replicated blocks:        0 (0.0 %)
 Under-replicated blocks:       1937 (4.505699 %)
 Mis-replicated blocks:         0 (0.0 %)
 Default replication factor:    3
 Average block replication:     3.045057
 Missing blocks:                0
 Corrupt blocks:                0
 Missing replicas:              11597 (8.138018 %)

Erasure Coded Block Groups:
 Total size:    0 B
 Total files:   0
 Total block groups (validated):        0
 Minimally erasure-coded block groups:  0
 Over-erasure-coded block groups:       0
 Under-erasure-coded block groups:      0
 Unsatisfactory placement block groups: 0
 Average block group size:      0.0
 Missing block groups:          0
 Corrupt block groups:          0
 Missing internal blocks:       0
FSCK ended at Tue May 26 12:10:43 HST 2020 in 1717 milliseconds


The filesystem under path '/' is HEALTHY

我假设存在一些配置,我可以让HDFS使用节点主机上节点上已经存在的更多存储空间,但是通过快速谷歌搜索确实不清楚。有经验的人可以帮忙吗?另外,如果这是由于我没有看到的其他问题,是否有人可以使用LMK?

最佳答案

您没有提到/tmp中是否存在不良数据,例如可以清除的数据。

每个数据节点具有88.33 GB的存储空间?

如果是这样,您将无法仅创建新的HDD来挂接到群集并突然创建空间。
dfs.data.dir中的hdfs-site是每个数据节点上已装入卷的逗号分隔列表。

要获得更多存储空间,您需要格式化和装入更多磁盘,然后编辑该属性。

关于hadoop - 群集主机具有比HDFS似乎更多的存储空间/可以访问吗?如何增加HDFS存储使用量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62031318/

相关文章:

java - 为什么我的 avrokey 数据说它是一个通用记录当我明确地将数据写为 AvroKey<SpecificRecord> 时?

apache-spark - SPARK应用程序+ HDFS +用户 Airflow 不是inode = alapati的所有者

csv - 为 Impala 上传 CSV

hadoop - hadoop 1.0.3包括哪个版本的hdfs?

hadoop - 如何在 hadoop 的新目录中解压缩 .gz 文件?

apache - 我应该在 Cloudera 5.5 和 Hortonworks 2.4 中将哪个 Phoenix 版本与 HBase 一起使用?

hadoop - hadoop reducer 的 reduce() 调用可以接收的最大记录数是多少?

hadoop - 格式化名称节点后如何将数据节点重新连接到集群

hortonworks-data-platform - 在 NiFi 1.0.0 中形成集群时遇到问题

apache-nifi - 调试复杂 NiFi 数据流的理想方式