将分区数据集写入 HDFS/S3 时,成功完成后将 _SUCCESS 文件写入输出目录。我很好奇是否有办法将 _SUCCESS 文件写入每个分区目录?
最佳答案
目前,您可以通过将文件直接写到 path/to/table/partition_key1=foo/partition_key2=bar
来获得您想要的结果。并且不使用 Parquet writer 的 partitionBy
争论。
FWIW,我也相信_SUCCESS
文件应该写到每个分区,特别是考虑到 SPARK-13207和 SPARK-20236已经解决。
关于apache-spark - 使用每个分区中的 _SUCCESS 文件将分区数据集写入 HDFS/S3,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50051103/