spark有两种压缩文件格式。一种是 Parquet ,很容易阅读:
from pyspark.sql import HiveContext
hiveCtx = HiveContext(sc)
hiveCtx.parquetFile(parquetFile)
但对于 ocr 文件。我找不到一个很好的例子来告诉我如何使用 pyspark 阅读。
最佳答案
嗯,有两种方法:
Spark 2.x :
orc_df = spark.read.orc('python/test_support/sql/orc_partitioned')
Spark 1.6 :
df = hiveContext.read.orc('python/test_support/sql/orc_partitioned')
关于apache-spark - 如何使用pyspark读取orc文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44882087/