我想将单个 DataFrame 保存到 2 个不同的 csv 文件中(拆分 DataFrame) - 一个仅包含标题,另一个包含其余行。
我想将这两个文件保存在同一目录下,因此如果可能的话,Spark 处理所有逻辑将是最好的选择,而不是使用 pandas 拆分 csv 文件。
最有效的方法是什么?
感谢您的帮助!
最佳答案
假设您有一个名为“df”的数据集。
您可以: 选项一:写两次:
df.write.(...).option("header", "false").csv(....)
df.take(1).option("header", "true").csv() // as far as I remember, someone had problems with saving DataFrame without rows -> you must write at least one row and then manually cut this row using normal Java or Python file API
或者您可以使用 header = true 编写一次,然后使用普通 Java API 手动剪切 header 并将其放入新文件中
关于python - Pyspark - 将数据帧写入 2 个不同的 csv 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46199065/