python - PySpark 将 DataFrame 保存到实际的 JSON 文件

标签 python json apache-spark dataframe pyspark

如何将 PySpark DataFrame 保存到真正的 JSON 文件?

以下文档,我已经尝试过

df.write.json('myfile.json')

它可以工作,但它将文件保存为一系列字典,每行一个,并且这不能被正确读取

import json
d = json.load(open('myfile.json'))

我希望该文件包含字典列表。有办法吗?

最佳答案

有办法做到吗?不是真的,或者至少不是以一种优雅的方式。您可以将数据转换为 Python RDD、计算分区统计信息并手动构建完整文档,但这看起来很浪费时间。

如果您想获取dicts列表,只需逐行解析文件(-s)即可:

with open('myfile.json') as fr:
    dicts = [json.loads(line) for line in fr]

关于python - PySpark 将 DataFrame 保存到实际的 JSON 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36156561/

相关文章:

python - 安装了 Opencv 但是 python 找不到包

ios - 如何在 Swift 上使用 RESTKIT 处理 JSON 的 Null 映射

cassandra - 清除 Cassandra 中的所有行的列

apache-spark - 将 mqtt 与 pyspark 流结合使用

apache-spark - 如何指定多个Spark Standalone master(对于spark.master属性)?

python - Python os.pathsep 的 Rust 等价物是什么?

python - 如何将 model.state_dict() 存储在临时变量中以供以后使用?

python - 使用 Pandas 将特定值添加到根据条件选择的行

ios - Swift 4 可解码 : The given data was not valid JSON

json - 在 Swift 中解析 JSON 时为 nil