python - 如何在 Spark 中控制输出拼花文件的大小

标签 python apache-spark hadoop pyspark bigdata

这个问题在这里已经有了答案:





How do you control the size of the output file?

(5 个回答)


2年前关闭。




我有一个从 hive 表中读取数据的 spark 作业。
前任:

r = spark.sql("select * from table")

我必须使用 256mb parquet 文件将结果写入 hdfs 位置。

我在尝试
r.write.parquet("/data_dev/work/experian/test11")

这会生成 30MB 的文件
但我需要它来生成 256MB 的文件

我也试过这些配置
r.write.option("parquet.block.size", 256 * 1024 * 1024 ). \
               parquet("/path")

尽管如此,生成的文件似乎是 ~30MB 文件

最佳答案

我认为没有任何直接的方法可以控制 Spark 中的大小。
请引用这个链接:

How do you control the size of the output file?

关于python - 如何在 Spark 中控制输出拼花文件的大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57696923/

相关文章:

azure - Spark.conf.set 与 SparkR

hadoop - YARN 和 NameNode 什么时候交互

python - Matplotlib:从二进制数据填充

python - PyQt5 - 在 QTableWidget 后面更新 DataFrame

scala - 在 Spark Scala 中实现隔离森林

hadoop - pig 分组用户,同时维护其他字段

hadoop - 我无法在Ubuntu 12.04中保存/etc/sysctl.conf

Python在成员函数中调用构造函数

python - 如何在修改 PDF 时解除 I/O 锁定?

regex - 如何在 Scala Spark 中将空字符串替换为 N/A?