apache-spark - 使用每个分区中的 _SUCCESS 文件将分区数据集写入 HDFS/S3

标签 apache-spark pyspark hdfs

将分区数据集写入 HDFS/S3 时,成功完成后将 _SUCCESS 文件写入输出目录。我很好奇是否有办法将 _SUCCESS 文件写入每个分区目录?

最佳答案

目前,您可以通过将文件直接写到 path/to/table/partition_key1=foo/partition_key2=bar 来获得您想要的结果。并且不使用 Parquet writer 的 partitionBy争论。

FWIW,我也相信_SUCCESS文件应该写到每个分区,特别是考虑到 SPARK-13207SPARK-20236已经解决。

关于apache-spark - 使用每个分区中的 _SUCCESS 文件将分区数据集写入 HDFS/S3,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50051103/

相关文章:

python - Spark 引发 OutOfMemoryError

python - Spark : error reading DateType columns in partitioned parquet data

pyspark - 使用 withColumn 函数从 PySpark 中的列表动态创建新列

hadoop - 如何在Hadoop HDFS中解压缩.Snappy文件?

hadoop - 不使用 HDFS 时的数据局部性

r - R中的并行预测

apache-spark - 添加更多节点会降低 spark 集群性能

python - Spark 2.4.4 Avro Pyspark Shell 配置

pyspark - 如何使用 pyspark(2.1.0) LdA 获取与每个文档关联的主题?

apache-kafka - 将 kafka-connect-transform-archive 与 HdfsSinkConnector 一起使用时刷新大小