apache-spark - 写入 Spark 中指定的 Parquet 文件名

标签 apache-spark sparkr

我正在使用 SparkR,并且我想使用 write.df 作为特定文件夹:

write.df(my.sdf,path='/path/to/folder/',source='parquet')

理想情况下,我想指定完整路径名,即 /path/to/folder/this_parquet_file.parquet.gz

这可能吗?

最佳答案

简而言之:不。

您可以使用coalesce(1)来减少parquet文件夹内的文件数量,但仅此而已。写入执行器的输出总是会产生多个文件,因为这就是它为扩展而设计的方式。

关于apache-spark - 写入 Spark 中指定的 Parquet 文件名,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33369972/

相关文章:

hadoop - Apache Spark:任务失败,com.ning.compress.lzf.impl.UnsafeChunkDecoder.copyOverlappingLong处的java.lang.ArrayIndexOutOfBoundsException

apache-spark - 如何在Apache Spark开源集群中将用户登录凭据设置为Spark WebUI

apache-spark - Hadoop:Spark作业无法处理小型数据集

apache-spark - SparkR write.df 合并为一个文件

r - 在 sparklyr 中加载文件时出现 Java 错误

apache-spark - Spark SQL 在 where 子句的时间戳之间?

python - 在个人计算机上加载 PipelineModel 时出现 ValueError

r - 如何将数据从SparkR插入到hadoop集群中的Hbase

apache-spark - 在 Spark 中对多列求和

apache-spark - 在Spark中获取组的最后一个值