python - 使用 toPandas() 方法将 spark 数据帧转换为 Pandas 数据帧时会发生什么

标签 python pandas apache-spark pyspark apache-spark-sql

<分区>

我有一个 spark 数据框，我可以使用

将其转换为 pandas 数据框

toPandas()

pyspark 中可用的方法。

我对此有以下疑问吗？

这种转换是否破坏了使用 spark 的目的本身(分布式计算)？
数据集会很大，那么速度和内存呢？问题？
如果有人也能解释一下，这个到底发生了什么一行代码，那真的很有帮助。

谢谢

最佳答案

是的，一旦 toPandas 在 spark-dataframe 上被调用，它将脱离分布式系统，新的 pandas dataframe 将在集群的驱动程序节点中。

如果 spark-data frame 很大并且不适合驱动程序内存，它就会崩溃。

关于python - 使用 toPandas() 方法将 spark 数据帧转换为 Pandas 数据帧时会发生什么，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37499822/

上一篇：python - 如何先根据键对元组元素进行排序，然后根据值对元组元素进行排序

下一篇：python - 将背景图像添加到 3d 图

相关文章：

python - 如何识别 pandas 数据框中的非空列？

python - Pandas:打印一系列的名称和值

java - 使用 SPARK 从 ftp 读取文件时出现异常

scala - Spark SQL 不支持的数据类型 TimestampType

php - XAMPP-python脚本执行

python - 如何反转 numpy.where (np.where) 函数

python - 从 Pandas DataFrame 中删除许多索引范围

python - Dataframe 有一列是字典列表，我需要将它们解析为新的列

scala - 如何从代码向 Spark 提交作业？

python : Split string every three words

©2024 IT工具网联系我们