hadoop - Hadoop返回的文件大小是否包括复制因子？

标签 hadoop hdfs

我的文件存储在HDFS上，我需要获取其大小。我在命令提示符下使用以下行来获取文件大小
hadoop fs -du -s train.csv | awk '{{s+=$1}} END {{printf s}}
我知道Hadoop存储由复制因子决定的文件副本。因此，当我运行上面的行时，返回的大小是文件大小乘以复制因子还是仅是文件大小？

最佳答案

从Hadoop文档中:

du以以下格式返回三列:
大小disk_space_consumed_with_all_replicas full_path_name
https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html

如您所见，第一列是文件的大小，而第二列是消耗的空间，包括副本。

关于hadoop - Hadoop返回的文件大小是否包括复制因子？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54779652/

上一篇：docker - Docker容器以非零退出状态退出

下一篇：docker - 使用docker定义和运行复杂应用程序的工具

sql-server - 使用 SQL 中的外部表/Polybase 从外部源(Azure 存储 Blob)中选择数据。表已创建但未返回数据

hadoop - 如何将Cassandra转换为HDFS文件系统以进行Shark/Hive查询

Hadoop DFS 指向当前目录

java - Spark Java API，数据集操作？

java - 如何在 Mac 上安装 apache mahout？

scala - 工作人员是否还需要为Spark安装Hadoop？

Hadoop分布式缓存错误信息解读

java - 如何在Hadoop环境中执行用Java编写的Hadoop Job

hadoop - 在 Hadoop 中写入 HDFS 中的文件