python - 读取 Dataframewriter Pyspark 编写的 Csv 文件

标签 python csv apache-spark dataframe pyspark

我使用以下代码将数据框写入 CSV:

df.write.format("csv").save(base_path+"avg.csv")

当我在客户端模式下运行 Spark 时,上面的代码片段创建了一个名为 avg.csv 的文件夹,并且该文件夹包含一些带有部分 -* 的文件 .csv 在我的工作节点或嵌套文件夹中,然后文件部分-*.csv。

现在,当我尝试读取 avg.csv 时,我发现路径不存在。

df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv")

有人能告诉我我哪里做错了吗?

最佳答案

Part-00** 文件是分布式计算文件(如 MR、spark)的输出。因此,当您尝试存储时,它始终是一个用部分文件创建的文件夹,因为这是一些分布式存储的输出,请记住这一点。

所以,尝试使用:

df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv/*")

关于python - 读取 Dataframewriter Pyspark 编写的 Csv 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54723661/

相关文章:

python - 根据状态 :Available using Python? 过滤或查询 AWS RDS DBInstances 的正确方法是什么

python - Pyspark:使用私钥连接到 Snowflake 时出错

python - Flask-Login 扩展,启用模块登录

python - 构建我的 Django 第三方应用程序的最佳方式是什么

python - Django 迁移和 FileSystemStorage 取决于设置

csv - 如何反序列化actix Web表单数据并将其序列化为csv文件?

c# - 将 csv 加载到 oleDB 中并将所有推断的数据类型强制为字符串

python - PySpark 未初始化

apache-spark - 异常值检测算法spark mllib

python - multiprocessing.Pool 在关闭/加入后无限期挂起