我正在使用 SparkR
,并且我想使用 write.df
作为特定文件夹:
write.df(my.sdf,path='/path/to/folder/',source='parquet')
理想情况下,我想指定完整路径名,即 /path/to/folder/this_parquet_file.parquet.gz
这可能吗?
最佳答案
简而言之:不。
您可以使用coalesce(1)
来减少parquet文件夹内的文件数量,但仅此而已。写入执行器的输出总是会产生多个文件,因为这就是它为扩展而设计的方式。
关于apache-spark - 写入 Spark 中指定的 Parquet 文件名,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33369972/