apache-spark - 如何使用 Spark ORC 索引？

从 spark 启用 orc 索引的选项是什么？

          df
            .write()
            .option("mode", "DROPMALFORMED")
            .option("compression", "snappy")
            .mode("overwrite")
            .format("orc")
            .option("index", "user_id")
            .save(...);

我在化妆 .option("index", uid) ，我必须在那里放置什么来索引来自 orc 的列“user_id”。

最佳答案

你有没有试过:.partitionBy("user_id") ?

 df
        .write()
        .option("mode", "DROPMALFORMED")
        .option("compression", "snappy")
        .mode("overwrite")
        .format("orc")
        .partitionBy("user_id")
        .save(...)

关于apache-spark - 如何使用 Spark ORC 索引？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47005269/

上一篇：variables - 我怎么能限制 tensorflow 中变量的范围

下一篇：oracle - 通过 SOA/UMS 触发的 SMS 未从 sdpmessagingdriver-smpp 驱动程序配置设置中获取发件人地址

hadoop - 如何通过Delimiter分割Spark RDD的行

python - 如何在 hadoop 流中读取 ORC 文件？

scala - HiveContext 未读取 Orcfile 的模式

hadoop - Hive中 'Stored as InputFormat, OutputFormat'和 'Stored as'的区别

java - 如何增加CodedInputStream.setSizeLimit()

hadoop - 如何使用 ORC 存储 Hive 表以进行复杂查询？

python - 使用 PySpark 将复杂 RDD 转换为扁平化 RDD

python - Spark : Distribute low number of compute-intensive tasks via UDF

hadoop - 当文件夹的大小达到特定阈值时，是否可以通过oozie触发 Spark 作业？