apache-spark - 使用每个分区中的 _SUCCESS 文件将分区数据集写入 HDFS/S3

将分区数据集写入 HDFS/S3 时，成功完成后将 _SUCCESS 文件写入输出目录。我很好奇是否有办法将 _SUCCESS 文件写入每个分区目录？

最佳答案

目前，您可以通过将文件直接写到 path/to/table/partition_key1=foo/partition_key2=bar 来获得您想要的结果。并且不使用 Parquet writer 的 partitionBy争论。

FWIW，我也相信_SUCCESS文件应该写到每个分区，特别是考虑到 SPARK-13207和 SPARK-20236已经解决。

关于apache-spark - 使用每个分区中的 _SUCCESS 文件将分区数据集写入 HDFS/S3，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50051103/

上一篇：c - 在数组表示和除数中查找数字的模数

下一篇：electron - 使用 electron-packager 构建 electron 应用程序时出现“无法找到有效的应用程序”错误

相关文章：

python - Spark 引发 OutOfMemoryError

python - Spark : error reading DateType columns in partitioned parquet data

pyspark - 使用 withColumn 函数从 PySpark 中的列表动态创建新列

hadoop - 如何在Hadoop HDFS中解压缩.Snappy文件？

hadoop - 不使用 HDFS 时的数据局部性

r - R中的并行预测

apache-spark - 添加更多节点会降低 spark 集群性能

python - Spark 2.4.4 Avro Pyspark Shell 配置

pyspark - 如何使用 pyspark(2.1.0) LdA 获取与每个文档关联的主题？

apache-kafka - 将 kafka-connect-transform-archive 与 HdfsSinkConnector 一起使用时刷新大小