apache-spark - 如何使用pyspark读取orc文件

spark有两种压缩文件格式。一种是 Parquet ，很容易阅读:

from pyspark.sql import HiveContext
hiveCtx = HiveContext(sc)
hiveCtx.parquetFile(parquetFile)

但对于 ocr 文件。我找不到一个很好的例子来告诉我如何使用 pyspark 阅读。

最佳答案

嗯，有两种方法:

Spark 2.x :

orc_df = spark.read.orc('python/test_support/sql/orc_partitioned')

Spark 1.6 :

df = hiveContext.read.orc('python/test_support/sql/orc_partitioned')

关于apache-spark - 如何使用pyspark读取orc文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44882087/

相关文章：

hadoop - 以不同用户身份运行 Apache Zeppelin