scala - 如何从命令行或Spark Shell中显示 Parquet 文件的方案(包括类型)?

标签 scala apache-spark parquet

我已经确定如何使用spark-shell来显示字段名称,但是它很丑陋并且不包括类型

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

println(sqlContext.parquetFile(path))

打印:
ParquetTableScan [cust_id#114,blar_field#115,blar_field2#116], (ParquetRelation /blar/blar), None

最佳答案

您应该可以执行以下操作:

sqlContext.read.parquet(path).printSchema()

Spark docs:
// Print the schema in a tree format
df.printSchema()
// root
// |-- age: long (nullable = true)
// |-- name: string (nullable = true)

关于scala - 如何从命令行或Spark Shell中显示 Parquet 文件的方案(包括类型)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28904856/

相关文章:

apache-spark - Apache Spark : Relationship between action and job, Spark UI

apache-spark - EMR 中的 yarn 容器、Spark 执行器和可用节点之间有什么关系?

python - 想要在spark python中将字符串值转换为 float

sorting - 通过存储排序的 Parquet 文件增强 Spark 性能

hadoop - OCR/Parquet文件的存储策略

java - 使用 XSLT 转换 XML 时出现 ArrayIndexOutOfBoundsException

scala - IntelliJ IDEA Scala 插件找不到错误

apache-spark - Parquet 如何处理 SparseVector 列?

java - NoClassDefFoundError : scala/math/Ordering with spring-kafka-test 2. 5.7

scala - 如何向 forkjoinpool 添加更多线程