这个问题在这里已经有了答案:
How do you control the size of the output file?
(5 个回答)
2年前关闭。
我有一个从 hive 表中读取数据的 spark 作业。
前任:
r = spark.sql("select * from table")
我必须使用 256mb parquet 文件将结果写入 hdfs 位置。
我在尝试
r.write.parquet("/data_dev/work/experian/test11")
这会生成 30MB 的文件
但我需要它来生成 256MB 的文件
我也试过这些配置
r.write.option("parquet.block.size", 256 * 1024 * 1024 ). \
parquet("/path")
尽管如此,生成的文件似乎是 ~30MB 文件
最佳答案
我认为没有任何直接的方法可以控制 Spark 中的大小。
请引用这个链接:
How do you control the size of the output file?
关于python - 如何在 Spark 中控制输出拼花文件的大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57696923/