apache-spark - 写入 Spark 中指定的 Parquet 文件名

标签 apache-spark sparkr

我正在使用 SparkR，并且我想使用 write.df 作为特定文件夹:

write.df(my.sdf,path='/path/to/folder/',source='parquet')

理想情况下，我想指定完整路径名，即 /path/to/folder/this_parquet_file.parquet.gz

这可能吗？

最佳答案

简而言之:不。

您可以使用coalesce(1)来减少parquet文件夹内的文件数量，但仅此而已。写入执行器的输出总是会产生多个文件，因为这就是它为扩展而设计的方式。

关于apache-spark - 写入 Spark 中指定的 Parquet 文件名，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33369972/

上一篇：IIS在应用程序池回收期间重新启动

下一篇：apache-flink - 窗口操作符行为澄清后的 Apache Flink KeyedStream

相关文章：

hadoop - Apache Spark:任务失败，com.ning.compress.lzf.impl.UnsafeChunkDecoder.copyOverlappingLong处的java.lang.ArrayIndexOutOfBoundsException

apache-spark - 如何在Apache Spark开源集群中将用户登录凭据设置为Spark WebUI

apache-spark - Hadoop:Spark作业无法处理小型数据集

apache-spark - SparkR write.df 合并为一个文件

r - 在 sparklyr 中加载文件时出现 Java 错误

apache-spark - Spark SQL 在 where 子句的时间戳之间？

python - 在个人计算机上加载 PipelineModel 时出现 ValueError

r - 如何将数据从SparkR插入到hadoop集群中的Hbase

apache-spark - 在 Spark 中对多列求和

apache-spark - 在Spark中获取组的最后一个值

©2024 IT工具网联系我们