python - 为什么 Apache-Spark - Python 在本地比 pandas 慢?

标签 python pandas apache-spark pyspark apache-spark-sql

这里是 Spark 新手。 我最近开始在本地机器上使用以下命令在两个内核上使用 Spark:

pyspark --master local[2]

我有一个 393Mb 的文本文件,其中有将近一百万行。我想执行一些数据操作操作。我正在使用 PySpark 的内置数据框函数来执行简单的操作,例如 groupBysummaxstddev.

但是,当我在 pandas 中对完全相同的数据集执行完全相同的操作时,pandas 似乎在延迟方面以巨大的优势击败了 pyspark。

我想知道这可能是什么原因。我有几个想法。

  1. 内置函数在序列化/反序列化过程中效率低下吗?如果是,它们的替代品是什么?
  2. 数据集是否太小以至于无法超过运行 spark 的底层 JVM 的开销成本?

感谢收看。非常感谢。

最佳答案

因为:

你可以这样持续很长时间......

关于python - 为什么 Apache-Spark - Python 在本地比 pandas 慢?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48815341/

相关文章:

python - 在 Linux Ubuntu 18.04 上从 pip 安装 cartopy 退出并出现各种错误

python - python 中的大型对称列表 : will references contribute to size in ram?

python - 如何根据阈值对多列进行分组并在Python中创建新列

python - 我如何用pandas创建pivot_table,其中显示除我用于索引的其他字段

python - 从 pandas 数据帧写入 .csv 文件,并使用连续空格作为分隔符

scala - Apache Spark - Scala - 如何将 FlatMap (k, {v1,v2,v3,...}) 到 ((k,v1),(k,v2),(k,v3),...)

java - 在具有许多功能的JavaRDD中使用选择性功能

python - 如何在 SymPy 中扩展矩阵表达式?

apache-spark - 找出组 pyspark 数据框中的某些列是否不同

python - 如何向 PyCharm 添加解释器?