python - 读取 Dataframewriter Pyspark 编写的 Csv 文件

我使用以下代码将数据框写入 CSV:

df.write.format("csv").save(base_path+"avg.csv")

当我在客户端模式下运行 Spark 时，上面的代码片段创建了一个名为 avg.csv 的文件夹，并且该文件夹包含一些带有部分 -* 的文件 .csv 在我的工作节点或嵌套文件夹中，然后文件部分-*.csv。

现在，当我尝试读取 avg.csv 时，我发现路径不存在。

df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv")

有人能告诉我我哪里做错了吗？

最佳答案

Part-00** 文件是分布式计算文件(如 MR、spark)的输出。因此，当您尝试存储时，它始终是一个用部分文件创建的文件夹，因为这是一些分布式存储的输出，请记住这一点。

所以，尝试使用:

df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv/*")

关于python - 读取 Dataframewriter Pyspark 编写的 Csv 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54723661/