<分区>
我正在尝试计算 hdfs
中文件的行数/HIVE
.在某些情况下,我想要 HIVE
中整个表格的行数。 , 在某些情况下,我想要 HIVE
中文件中的行数.
我试过一些类似 !hadoop fs -count /<path to file(s)/
的东西, 但这只会给出 FILE COUNT
, 然后 CONTENT_SIZE
.来自 here
如何获取行数?
<分区>
我正在尝试计算 hdfs
中文件的行数/HIVE
.在某些情况下,我想要 HIVE
中整个表格的行数。 , 在某些情况下,我想要 HIVE
中文件中的行数.
我试过一些类似 !hadoop fs -count /<path to file(s)/
的东西, 但这只会给出 FILE COUNT
, 然后 CONTENT_SIZE
.来自 here
如何获取行数?
最佳答案
如果您想知道总行数,您可以查看“映射输入记录”计数器。这将为您提供给定输入中的总行数(这是目录中的所有文件)。
如果您需要给定文件中的行数(我仍然不明白您为什么需要它),您需要为读取给定文件的映射器获取相同的计数器。这可能有点棘手,但它是可行的。
如果您在 Yarn 上使用 Hadoop,我建议您使用 Yarn's REST API , 对 M/R 处理的某些部分进行这种“快速查询”真的很容易使用,也很方便。
关于hadoop - 如何计算文件 hdfs 的行数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33658378/