<分区>
我有一个 spark 数据框,我可以使用
将其转换为 pandas 数据框toPandas()
pyspark 中可用的方法。
我对此有以下疑问吗?
- 这种转换是否破坏了使用 spark 的目的 本身(分布式计算)?
- 数据集会很大,那么速度和内存呢? 问题?
- 如果有人也能解释一下,这个到底发生了什么 一行代码,那真的很有帮助。
谢谢
<分区>
我有一个 spark 数据框,我可以使用
将其转换为 pandas 数据框toPandas()
pyspark 中可用的方法。
我对此有以下疑问吗?
谢谢
最佳答案
是的,一旦 toPandas
在 spark-dataframe 上被调用,它将脱离分布式系统,新的 pandas dataframe 将在集群的驱动程序节点中。
如果 spark-data frame 很大并且不适合驱动程序内存,它就会崩溃。
关于python - 使用 toPandas() 方法将 spark 数据帧转换为 Pandas 数据帧时会发生什么,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37499822/