hadoop - 如何检查HDFS上文件的格式?

标签 hadoop hdfs

给个HDFS路径,怎么判断是什么格式(文本,序列还是parquet)?

最佳答案

我认为要完成您的需求并不容易,除非您在 HDFS 中的所有文件都遵循一些约定,例如.txt 用于文本,.seq 用于序列,.parquet 用于 parquet 文件。

但是,您可以使用 cat 手动检查您的文件。

  • HDFS 猫:hadoop dfs -cat/path/to/file | head 检查它是否是一个文本文件。

  • Parquet head : parquet-tools head [选项...]/path/to/file

  • 或者,编写一个程序来读取....

关于hadoop - 如何检查HDFS上文件的格式?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30294527/

相关文章:

hadoop - elasticsearch 与 mahout 集成

java - 对webhdfs的Http请求但给出FileNotFoundException

java - 平衡器无法在HDFS HA中工作

hadoop - 如何将RDBMS数据与HDFS数据同步

java - Hadoop 自定义记录读取器实现

java - 使用cloudera hadoop java培训项目时加载类失败

hadoop - Sqoop从voltdb导出数据

hadoop - 1个Tasktracker能否运行多个JVM

java - NoSuchMethodError : org. apache.hadoop.io.retry.RetryUtils.getDefaultRetryPolicy

hadoop - Hadoop previous.checkpoint位置