apache-spark - Spark 支持的各种文件/数据格式

标签 apache-spark

我在某处发现了下面的代码。

sqlContext.read.format("com.databricks.spark.csv")

看起来 com.databricks.spark.csv 是 Databricks 支持的文件格式。 我想知道 Apache-Spark native 支持哪些文件/数据格式(2.0.0 之前的版本)

最佳答案

Spark支持Hadoop生态系统支持的所有格式。 以下是与 Spark 配合良好的格式。

1.文本文件

2.序列文件

3.json

4.avro(轻量级且快速的序列化/反序列化)

5.parquet(面向列并提供更好的压缩比)

关于apache-spark - Spark 支持的各种文件/数据格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38894054/

相关文章:

scala - Spark - 如何在 Spark 中计算百分位数?

scala - 使用 Scala 转换 LabeledPoint 中 Vector 的 RDD - Apache Spark 中的 MLLib

scala - 如何防止java.lang.OutOfMemoryError : PermGen space at Scala compilation?

在 SparkR 中运行关联 : no method for coercing this S4 class to a vector

apache-spark - 在pyspark中将rdd转换为没有模式的数据帧

apache-spark - 解压列表以从 Spark 数据框中选择多列

apache-spark - 将功能应用于Spark中的CSV的单个列

scala - 工作人员是否还需要为Spark安装Hadoop?

hive - Spark : Hive Query

apache-spark - 将字符串转换为整数会在 Spark sql 中给出 NULL 值