python - PySpark 将 DataFrame 保存到实际的 JSON 文件

如何将 PySpark DataFrame 保存到真正的 JSON 文件？

以下文档，我已经尝试过

df.write.json('myfile.json')

它可以工作，但它将文件保存为一系列字典，每行一个，并且这不能被正确读取

import json
d = json.load(open('myfile.json'))

我希望该文件包含字典列表。有办法吗？

最佳答案

有办法做到吗？不是真的，或者至少不是以一种优雅的方式。您可以将数据转换为 Python RDD、计算分区统计信息并手动构建完整文档，但这看起来很浪费时间。

如果您想获取dicts的列表，只需逐行解析文件(-s)即可:

with open('myfile.json') as fr:
    dicts = [json.loads(line) for line in fr]

关于python - PySpark 将 DataFrame 保存到实际的 JSON 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36156561/

相关文章：

python - 安装了 Opencv 但是 python 找不到包