apache-spark - Spark 支持的各种文件/数据格式

我在某处发现了下面的代码。

sqlContext.read.format("com.databricks.spark.csv")

看起来 com.databricks.spark.csv 是 Databricks 支持的文件格式。我想知道 Apache-Spark native 支持哪些文件/数据格式(2.0.0 之前的版本)

最佳答案

Spark支持Hadoop生态系统支持的所有格式。以下是与 Spark 配合良好的格式。

1.文本文件

2.序列文件

3.json

4.avro(轻量级且快速的序列化/反序列化)

5.parquet(面向列并提供更好的压缩比)

关于apache-spark - Spark 支持的各种文件/数据格式，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38894054/

相关文章：

scala - Spark - 如何在 Spark 中计算百分位数？