python - 如何在 Spark 中控制输出拼花文件的大小

这个问题在这里已经有了答案:

How do you control the size of the output file?

(5 个回答)

2年前关闭。

我有一个从 hive 表中读取数据的 spark 作业。
前任:

r = spark.sql("select * from table")

我必须使用 256mb parquet 文件将结果写入 hdfs 位置。

我在尝试

r.write.parquet("/data_dev/work/experian/test11")

这会生成 30MB 的文件
但我需要它来生成 256MB 的文件

我也试过这些配置

r.write.option("parquet.block.size", 256 * 1024 * 1024 ). \
               parquet("/path")

尽管如此，生成的文件似乎是 ~30MB 文件

最佳答案

我认为没有任何直接的方法可以控制 Spark 中的大小。
请引用这个链接:

How do you control the size of the output file?

关于python - 如何在 Spark 中控制输出拼花文件的大小，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57696923/

相关文章：

azure - Spark.conf.set 与 SparkR