如何将 PySpark DataFrame 保存到真正的 JSON 文件?
以下文档,我已经尝试过
df.write.json('myfile.json')
它可以工作,但它将文件保存为一系列字典,每行一个,并且这不能被正确读取
import json
d = json.load(open('myfile.json'))
我希望该文件包含字典列表。有办法吗?
最佳答案
有办法做到吗?不是真的,或者至少不是以一种优雅的方式。您可以将数据转换为 Python RDD、计算分区统计信息并手动构建完整文档,但这看起来很浪费时间。
如果您想获取dicts
的列表
,只需逐行解析文件(-s)即可:
with open('myfile.json') as fr:
dicts = [json.loads(line) for line in fr]
关于python - PySpark 将 DataFrame 保存到实际的 JSON 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36156561/