apache-spark - pyspark.sql.DataFrameWriter.saveAsTable() 的格式

标签 apache-spark pyspark pyspark-sql

有谁知道我在哪里可以找到 pyspark.sql.DataFrameWritersaveAsTable() 函数的可用格式列表?在 the documentation它只是说“用于保存的格式”。

我看到的每个示例都使用“ Parquet ”,但我找不到其他提及的内容。具体来说,我想以某种方式从 pyspark 中保存到 Feather。

谢谢!

最佳答案

据我所知,开箱即用的源代码支持命令 https://github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/DataFrameWriter.scala格式为:

  • Parquet
  • JSON
  • 兽人
  • JDBC
  • 正文
  • csv
  • 来源(仅获取来源 您保存的格式)

因此 Feather 不支持开箱即用的 saveAsTable()。根据您的设置,您可以尝试直接保存到 HDFS,就像这样:"

import feather
path= "my_data.feather" #this would then be your full hdfs URI
feather.write_dataframe(df, path)

(取自羽毛集成测试:https://github.com/wesm/feather/blob/6b5a27c58d1e850f4eabb8c013e0976b8844eb3c/integration-tests/test_roundtrips.py)

希望这对您有所帮助,如果有任何错误或不清楚的地方,请告诉我。

关于apache-spark - pyspark.sql.DataFrameWriter.saveAsTable() 的格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44530799/

相关文章:

python - 似乎无法初始化 Spark 上下文 (pyspark)

csv - 使用正确的数据类型在 Pyspark 中读取 CSV

apache-spark - 在S3中将sparkdataframe写入.csv文件,然后在pyspark中选择一个名称

python - 如何将大型 python 模型应用于 pyspark-dataframe?

sql - 如何处理原始可空类型的 Spark UDF 输入/输出

java - Spark-csv 的 Spark-Submit 依赖关系解析

apache-spark - 在pyspark lambda映射函数中使用keras模型

scala - 使用 SQLContext 隐式在 Spark 中进行单元测试

python - PySpark 相当于 Pandas UDF 中的 lambda 函数

python - 写入的文件数量多于分区数量