python - 将pyspark数据帧转换为python字典列表

标签 python apache-spark pyspark

嗨,我是 pyspark 的新手,我正在尝试将 pyspark.sql.dataframe 转换为字典列表。
下面是我的数据框,类型是 :

+------------------+----------+------------------------+
|             title|imdb_score|Worldwide_Gross(dollars)|
+------------------+----------+------------------------+
| The Eight Hundred|       7.2|               460699653|
| Bad Boys for Life|       6.6|               426505244|
|             Tenet|       7.8|               334000000|
|Sonic the Hedgehog|       6.5|               308439401|
|          Dolittle|       5.6|               245229088|
+------------------+----------+------------------------+
我想将其转换为:
[{"title":"The Eight Hundred", "imdb_score":7.2, "Worldwide_Gross(dollars)":460699653},
 {"title":"Bad Boys for Life", "imdb_score":6.6, "Worldwide_Gross(dollars)":426505244},
 {"title":"Tenet", "imdb_score":7.8, "Worldwide_Gross(dollars)":334000000},
 {"title":"Sonic the Hedgehog", "imdb_score":6.5, "Worldwide_Gross(dollars)":308439401},
 {"title":"Dolittle", "imdb_score":5.6, "Worldwide_Gross(dollars)":245229088}]
我该怎么做?提前致谢!

最佳答案

您可以将每一行映射到字典中并收集结果:df.rdd.map(lambda row: row.asDict()).collect()

关于python - 将pyspark数据帧转换为python字典列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65059995/

相关文章:

python - 有人可以解释一下这个简单的Python代码吗?

windows azure 上的 python 云应用程序

sql - 如何创建 UDF 来查找数组列中的索引

apache-spark - 将 JSON 字符串列拆分为多列

python - 为什么我的PySpark程序会卡在中间如下

Python脚本循环遍历目录中的所有文件,删除任何小于200 kB的文件

python - 将嵌套 JSON 转换为 CSV

apache-spark - 为什么poseexplode 失败并显示 "AnalysisException: The number of aliases supplied in the AS clause does not match the number of columns..."?

apache-spark - Spark 写入 S3 SaveMode.Append

python - pySpark将mapPartitions的结果转换为spark DataFrame