我的文件存储在HDFS上,我需要获取其大小。我在命令提示符下使用以下行来获取文件大小hadoop fs -du -s train.csv | awk '{{s+=$1}} END {{printf s}}
我知道Hadoop存储由复制因子决定的文件副本。因此,当我运行上面的行时,返回的大小是文件大小乘以复制因子还是仅是文件大小?
最佳答案
从Hadoop文档中:
du以以下格式返回三列:
大小disk_space_consumed_with_all_replicas full_path_name
https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html
如您所见,第一列是文件的大小,而第二列是消耗的空间,包括副本。
关于hadoop - Hadoop返回的文件大小是否包括复制因子?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54779652/