hadoop - 在hadoop hdfs中查看数据格式的最佳方法是什么?

标签 hadoop hdfs hadoop2

将近50GB的CSV文件加载到Hadoop集群中,我想查看一些示例记录来标识列。

我尝试使用

hadoop fs -cat employees.csv | head -n 10

我的问题是
  • 是查看数据的正确命令吗?
  • head -n 10-它将加载50 GB的数据,并且将对前10行进行过滤?运作方式如何?
  • 还有其他更好的方法吗?
  • 最佳答案

    这取决于您的版本。

    对于较早的Hadoop(<3.1.0)版本:

    hadoop fs -cat employees.csv | head -n 10
    

    对于较新的(> = 3.1.0)Hadoop版本
     hadoop fs -head employees.csv
    

    关于hadoop - 在hadoop hdfs中查看数据格式的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55529117/

    相关文章:

    hadoop - 从HDFS导入表到Spark

    hadoop - 在 EMR MapReduce2 YARN 中分配资源(映射器数量)问题

    python - 如何在新的 Ubuntu 实例上安装 Hadoop 和 Pydoop

    hadoop - 为集群创建 Spark 环境

    hdfs - Cloudera 5.4.2 : Avro block size is invalid or too large when using Flume and Twitter streaming

    apache-spark - AWS 上的 Spark HDFS 大小?

    hadoop - 使用拦截器过滤 Flume 中的日志文件

    hadoop - Pig:如何对时间序列数据重新采样?

    java - Hadoop,如何获取OutputFormat中的输入文件名

    java - 计算最终 map 中的总行数会减少hadoop中的输出