python - 使用 toPandas() 方法将 spark 数据帧转换为 Pandas 数据帧时会发生什么

标签 python pandas apache-spark pyspark apache-spark-sql

<分区>

我有一个 spark 数据框,我可以使用

将其转换为 pandas 数据框
toPandas()

pyspark 中可用的方法。

我对此有以下疑问吗?

  1. 这种转换是否破坏了使用 spark 的目的 本身(分布式计算)?
  2. 数据集会很大,那么速度和内存呢? 问题?
  3. 如果有人也能解释一下,这个到底发生了什么 一行代码,那真的很有帮助。

谢谢

最佳答案

是的,一旦 toPandas 在 spark-dataframe 上被调用,它将脱离分布式系统,新的 pandas dataframe 将在集群的驱动程序节点中。

如果 spark-data frame 很大并且不适合驱动程序内存,它就会崩溃。

关于python - 使用 toPandas() 方法将 spark 数据帧转换为 Pandas 数据帧时会发生什么,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37499822/

相关文章:

python - 如何识别 pandas 数据框中的非空列?

python - Pandas:打印一系列的名称和值

java - 使用 SPARK 从 ftp 读取文件时出现异常

scala - Spark SQL 不支持的数据类型 TimestampType

php - XAMPP-python脚本执行

python - 如何反转 numpy.where (np.where) 函数

python - 从 Pandas DataFrame 中删除许多索引范围

python - Dataframe 有一列是字典列表,我需要将它们解析为新的列

scala - 如何从代码向 Spark 提交作业?

python : Split string every three words