我在某处发现了下面的代码。
sqlContext.read.format("com.databricks.spark.csv")
看起来 com.databricks.spark.csv
是 Databricks 支持的文件格式。
我想知道 Apache-Spark native 支持哪些文件/数据格式(2.0.0 之前的版本)
最佳答案
Spark支持Hadoop生态系统支持的所有格式。 以下是与 Spark 配合良好的格式。
1.文本文件
2.序列文件
3.json
4.avro(轻量级且快速的序列化/反序列化)
5.parquet(面向列并提供更好的压缩比)
关于apache-spark - Spark 支持的各种文件/数据格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38894054/