python - Spark 和 PySpark 之间是否存在功能对等

标签 python scala apache-spark pyspark

我听到一个常见的主题,即我应该只在 Spark (1.5.1) 上的 Scala 中进行认真的编程。真正的高级用户使用 Scala。据说 Python 非常适合分析,但最终代码应该写入 Scala 来完成。我听到的原因有很多:

  1. Spark 是用 Scala 编写的,因此始终比基于它的任何其他语言实现更快。
  2. 与 Python API 相比,Spark 版本始终倾向于为 Scala API 提供更多可见和启用的功能。

以上内容是否属实?我有点怀疑。

谢谢

最佳答案

无论您是在 Scala、Pyspark 还是 Java 中运行 Spark Dataframe API,其执行效果都是相同的。然而,RDD API 在 Scala 中的运行速度比在 Pyspark 上快得多

Databricks 在一些方面有一篇非常好的文章 recent performance improvements在 Spark 中。

Scala API 肯定会首先获得更多测试和更多新功能,尽管新功能并不总是仅在 Scala 或 Java 中可用。

就我个人而言,我认为学习足够的 Scala 所需的努力是值得的 - 您无需成为 Scala 专家即可获得在 Spark 中使用它的好处。

关于python - Spark 和 PySpark 之间是否存在功能对等,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32980613/

相关文章:

Scala 光滑 : build query conditionally

mysql - Slick flatMap 不会将所有查询作为一个组执行

python - 在本地测试 Hive + spark python 程序?

python - win32com DLL 加载失败

Python RAM写入和读取

java - 从 Enumerator[Array[Byte]] 创建 Java InputStream

java - Spark 作业创建时间

java - Apache Parquet 无法读取页脚 : java. io.IOException:

python - PyGTK+3 (PyGObject) 创建屏幕截图?

python - Django 表单 ForeignKey 数据库字段不是下拉列表