我目前正在使用 spark(scala) 在 Apache Hudi
上进行 POC。
我在使用分区保存数据帧时遇到问题。
Hudi 使用 path/valueOfPartitionCol1/valueOfPartitionCol2.... 保存数据框....
使用属性 PARTITIONPATH_FIELD_OPT_KEY
。
但我的要求是 path/COL1=value/COL2=value....
类似于 spark 使用 partitionBy()
对数据进行分区的方式。
任何尝试过使用 Hudi
进行自定义分区的人都可以帮助我吗?
最佳答案
这有帮助吗? 设置配置 HIVE_STYLE_PARTITIONING_OPT_KEY=true 如下:
batchDF.write.format("org.apache.hudi")
.option(HIVE_STYLE_PARTITIONING_OPT_KEY, true)
.mode(SaveMode.Append)
.save(bathPath)
关于apache-spark - 具有自定义格式的 Apache Hudi 分区,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59356613/