从 spark 启用 orc 索引的选项是什么?
df
.write()
.option("mode", "DROPMALFORMED")
.option("compression", "snappy")
.mode("overwrite")
.format("orc")
.option("index", "user_id")
.save(...);
我在化妆
.option("index", uid)
,我必须在那里放置什么来索引来自 orc 的列“user_id”。
最佳答案
你有没有试过:.partitionBy("user_id")
?
df
.write()
.option("mode", "DROPMALFORMED")
.option("compression", "snappy")
.mode("overwrite")
.format("orc")
.partitionBy("user_id")
.save(...)
关于apache-spark - 如何使用 Spark ORC 索引?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47005269/