我使用以下代码将数据框写入 CSV:
df.write.format("csv").save(base_path+"avg.csv")
当我在客户端模式下运行 Spark 时,上面的代码片段创建了一个名为 avg.csv 的文件夹,并且该文件夹包含一些带有部分 -* 的文件 .csv 在我的工作节点或嵌套文件夹中,然后文件部分-*.csv。
现在,当我尝试读取 avg.csv 时,我发现路径不存在。
df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv")
有人能告诉我我哪里做错了吗?
最佳答案
Part-00**
文件是分布式计算文件(如 MR、spark)的输出。因此,当您尝试存储时,它始终是一个用部分文件创建的文件夹,因为这是一些分布式存储的输出,请记住这一点。
所以,尝试使用:
df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv/*")
关于python - 读取 Dataframewriter Pyspark 编写的 Csv 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54723661/