hadoop - 在hadoop hdfs中查看数据格式的最佳方法是什么？

将近50GB的CSV文件加载到Hadoop集群中，我想查看一些示例记录来标识列。

我尝试使用

hadoop fs -cat employees.csv | head -n 10

我的问题是

是查看数据的正确命令吗？

head -n 10-它将加载50 GB的数据，并且将对前10行进行过滤？运作方式如何？

还有其他更好的方法吗？

最佳答案

这取决于您的版本。

对于较早的Hadoop(<3.1.0)版本:

hadoop fs -cat employees.csv | head -n 10

对于较新的(> = 3.1.0)Hadoop版本

 hadoop fs -head employees.csv

关于hadoop - 在hadoop hdfs中查看数据格式的最佳方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55529117/

相关文章：

hadoop - 从HDFS导入表到Spark