apache-spark - 如何使用pyspark读取orc文件

标签 apache-spark pyspark pyspark-sql

spark有两种压缩文件格式。一种是 Parquet ,很容易阅读:

from pyspark.sql import HiveContext
hiveCtx = HiveContext(sc)
hiveCtx.parquetFile(parquetFile)

但对于 ocr 文件。我找不到一个很好的例子来告诉我如何使用 pyspark 阅读。

最佳答案

嗯,有两种方法:

Spark 2.x :

orc_df = spark.read.orc('python/test_support/sql/orc_partitioned')

Spark 1.6 :
df = hiveContext.read.orc('python/test_support/sql/orc_partitioned')

关于apache-spark - 如何使用pyspark读取orc文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44882087/

相关文章:

hadoop - 以不同用户身份运行 Apache Zeppelin

java - 如何修复 java.lang.IllegalStateException : Expected BEGIN_ARRAY but was STRING in cmd windows Gson, Apache Spark

python - 是否可以在docker下运行spark udf函数(主要是python)?

python - apache spark 加载内部文件夹

python - Pyspark 数据帧 : Transforming unique elements in rows to columns

PySpark 通过 Hive Metastore 读取 Iceberg 表到 S3

pyspark - 将pyspark DataFrame列的每一行转换为Json字符串

PySpark:如何获取数据框中列的最大绝对值?

apache-spark - 如何缓存 Spark 数据帧并在另一个脚本中引用它

apache-spark - 在 Databricks/Spark 中的 SQL 中为变量分配一个动态值