hadoop - 如何计算文件 hdfs 的行数？

<分区>

我正在尝试计算 hdfs 中文件的行数/HIVE .在某些情况下，我想要 HIVE 中整个表格的行数。 , 在某些情况下，我想要 HIVE 中文件中的行数.

我试过一些类似 !hadoop fs -count /<path to file(s)/ 的东西, 但这只会给出 FILE COUNT , 然后 CONTENT_SIZE .来自 here

如何获取行数？

最佳答案

如果您想知道总行数，您可以查看“映射输入记录”计数器。这将为您提供给定输入中的总行数(这是目录中的所有文件)。

如果您需要给定文件中的行数(我仍然不明白您为什么需要它)，您需要为读取给定文件的映射器获取相同的计数器。这可能有点棘手，但它是可行的。

如果您在 Yarn 上使用 Hadoop，我建议您使用 Yarn's REST API , 对 M/R 处理的某些部分进行这种“快速查询”真的很容易使用，也很方便。

关于hadoop - 如何计算文件 hdfs 的行数？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33658378/

相关文章：

hadoop - AWS EMR Hive 分区无法识别任何类型的分区