hadoop - 如何计算文件 hdfs 的行数?

标签 hadoop hdfs wc

<分区>

我正在尝试计算 hdfs 中文件的行数/HIVE .在某些情况下,我想要 HIVE 中整个表格的行数。 , 在某些情况下,我想要 HIVE 中文件中的行数.

我试过一些类似 !hadoop fs -count /<path to file(s)/ 的东西, 但这只会给出 FILE COUNT , 然后 CONTENT_SIZE .来自 here

如何获取行数?

最佳答案

如果您想知道总行数,您可以查看“映射输入记录”计数器。这将为您提供给定输入中的总行数(这是目录中的所有文件)。

如果您需要给定文件中的行数(我仍然不明白您为什么需要它),您需要为读取给定文件的映射器获取相同的计数器。这可能有点棘手,但它是可行的。

如果您在 Yarn 上使用 Hadoop,我建议您使用 Yarn's REST API , 对 M/R 处理的某些部分进行这种“快速查询”真的很容易使用,也很方便。

关于hadoop - 如何计算文件 hdfs 的行数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33658378/

相关文章:

hadoop - AWS EMR Hive 分区无法识别任何类型的分区

bash - 真正的 bash 行数

linux - 比 wc -l 更快更精确地计算行数的方法

ubuntu - apt-get install hadoop-0.20-fuse - 找不到包

hadoop - 执行使用UNION和RANK的PIG脚本。 (错误2017:内部错误创建作业配置。)

apache - Dir 迁移到 Flume

Oracle 数据库 JDBC 驱动程序无法从 Spark 读取钱包文件

hadoop - spark 是否有可能同时读取 HDFS 数据和进行一些计算?

scala - 使用 scalding 读取多个文件并输出单个文件

linux - 试图计算 perl 中一行中的字符数,但失败了