hadoop - Hadoop block 计数计算

标签 hadoop hdfs microsoft-distributed-file-system

我们正在运行一个Hadoop集群,其复制因子为3,块大小为64MB。我们只是想知道计算/运行命令的最佳方法,以查看驻留在数据节点上的实际数据大小。
此外,我们尝试使用hdfs dfs -du -hhdfs dfs dfsreport -report,但是我们注意到的是,如果我们的磁盘大小为12TB:
a)第一条命令将显示数据使用量接近500GB
b)第二条命令将显示11.5TB的数据使用量。

我们在这里缺少差异的原因是什么?任何帮助将是巨大的!

最佳答案

首先,我想用您提到的第二个命令来纠正您。它是:

hdfs dfsadmin -report

到了为什么结果不同的地步。现在,du命令仅显示dfs上使用的数据,而不显示非dfs上使用的数据。另一方面,第二个命令计算总空间(dfs + non-dfs),然后为您提供所用总数据的详细信息。

它还携带着复制的数据量,即,如果数据消耗5 TB空间并且复制为3,则dfs-used将为15 TB。

希望能清除您的查询。

关于hadoop - Hadoop block 计数计算,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52274089/

相关文章:

powershell - 替换 DFS 文件夹目标

csv - 将 CSV 文件(包含空字符串和重复项)导入 DynamoDB

hadoop - 我的hadoop体系结构的改进建议

hadoop - 为什么 Hadoop SequenceFile 写比读慢很多?

hadoop - 尝试在Pig中使用Python UDF时无法存储别名C

hadoop - 如何在 Amazon EMR 上重启 HDFS

javascript - Typescript/JavaScript 中对象数组中的 DFS 实现

Hadoop 和 JDK 兼容性

hadoop - Hadoop:如何计算实际文件大小?

java - 为什么这个 DFS 代码在某些情况下不起作用?