apache-spark - 如何使用 Spark ORC 索引?

标签 apache-spark orc

从 spark 启用 orc 索引的选项是什么?

          df
            .write()
            .option("mode", "DROPMALFORMED")
            .option("compression", "snappy")
            .mode("overwrite")
            .format("orc")
            .option("index", "user_id")
            .save(...);

我在化妆 .option("index", uid) ,我必须在那里放置什么来索引来自 orc 的列“user_id”。

最佳答案

你有没有试过:.partitionBy("user_id") ?

 df
        .write()
        .option("mode", "DROPMALFORMED")
        .option("compression", "snappy")
        .mode("overwrite")
        .format("orc")
        .partitionBy("user_id")
        .save(...)

关于apache-spark - 如何使用 Spark ORC 索引?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47005269/

相关文章:

apache-spark - 无法在远程模式下将 SparkGraphComputer 与 Tinkerpop 3.2.3 和 Janusgraph 0.1.1 一起使用

hadoop - 如何通过Delimiter分割Spark RDD的行

python - 如何在 hadoop 流中读取 ORC 文件?

scala - HiveContext 未读取 Orcfile 的模式

hadoop - Hive中 'Stored as InputFormat, OutputFormat'和 'Stored as'的区别

java - 如何增加CodedInputStream.setSizeLimit()

hadoop - 如何使用 ORC 存储 Hive 表以进行复杂查询?

python - 使用 PySpark 将复杂 RDD 转换为扁平化 RDD

python - Spark : Distribute low number of compute-intensive tasks via UDF

hadoop - 当文件夹的大小达到特定阈值时,是否可以通过oozie触发 Spark 作业?