apache-spark - 具有自定义格式的 Apache Hudi 分区

标签 apache-spark apache-hudi

我目前正在使用 spark(scala) 在 Apache Hudi 上进行 POC。

我在使用分区保存数据帧时遇到问题。

Hudi 使用 path/valueOfPartitionCol1/valueOfPartitionCol2.... 保存数据框.... 使用属性 PARTITIONPATH_FIELD_OPT_KEY

但我的要求是 path/COL1=value/COL2=value.... 类似于 spark 使用 partitionBy() 对数据进行分区的方式。

任何尝试过使用 Hudi 进行自定义分区的人都可以帮助我吗?

最佳答案

这有帮助吗? 设置配置 HIVE_STYLE_PARTITIONING_OPT_KEY=true 如下:

  batchDF.write.format("org.apache.hudi")

          .option(HIVE_STYLE_PARTITIONING_OPT_KEY, true)

          .mode(SaveMode.Append)
          .save(bathPath)

关于apache-spark - 具有自定义格式的 Apache Hudi 分区,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59356613/

相关文章:

apache-spark - Dataproc 上的 Apache Hudi

java - Py4JJavaError : An error occurred while calling z:org. apache.spark.api.python.PythonRDD.collectAndServe。 : java. lang.IllegalArgumentException

java - 如何在不使用collect函数的情况下有效地将rdd转换为list

apache-spark - spark2 + yarn - 准备 AM 容器时出现空指针异常

apache-spark - java.lang.UnsupportedOperationException : Error in spark when writing

json - 将文件作为命令行参数传递给 Spark

amazon-web-services - 直接或通过 AWS Glue 数据目录将 Redshift Spectrum/AWS EMR 与 Hudi 连接

apache-spark - Spark Streaming HUDI HoodieException : Config conflict(key current value existing value): RecordKey:

apache-spark - 在 Apache Hudi 表中写入 Spark DataFrame