apache-spark - 来自 Spark 安装的 Pyspark VS Pyspark python 包

标签 apache-spark pyspark pyspark-sql

我刚开始学习spark,对这个概念有点迷惑,所以从spark安装中,我们得到了spark安装子文件夹下的pyspark,我理解它是一个shell,从python包中我们也可以通过 pip install pyspark 安装 python 包,这样我们就可以运行 python 代码而不是将其提交到集群,那么这两者之间有什么区别?同样在 anaconda 中,我们可以使用 findspark 并从那里使用 pyspark,这是否意味着它不使用 python 包中的 pyspark?

加上在现实世界中的 Spark 应用程序开发中,在哪些场景中使用的是什么?提前致谢 。

最佳答案

如果您使用 pip install ,那只会在本地安装必要的 Python 库,并且不会包含 spark-submit 脚本或其他通过下载所有 Spark 获得的 Spark 配置文件。

因此,在笔记本之外的 Spark 的“真实世界”中,您可以将 Python 代码打包为 Zip,然后使用该提交脚本将其提交到集群,或者以其他方式在代码本身中设置主节点和所有 Spark 选项,这不那么灵活

关于apache-spark - 来自 Spark 安装的 Pyspark VS Pyspark python 包,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58479357/

相关文章:

java - 将架构应用于 Java 对象的 Spark 数据集

python - 插入 DataFrame 列并根据 PySpark 或 Pandas 中的另一列进行排序

apache-spark - 使用 Spark 多集群改进 SQL 查询

apache-spark - 在 pyspark 中将 Unix(Epoch) 时间更改为本地时间

PySpark-Spark SQL : how to convert timestamp with UTC offset to epoch/unixtime?

apache-spark - Spark错误: Could not initialize class org. apache.spark.rdd.RDDOperationScope

python - 如何在pyspark中分解数据框的多列

apache-spark - 当您使用 Pyspark 时,您是否受益于 Kryo 序列化程序?

hadoop - 如何从 pyspark rdd 或分区确定原始 s3 输入文件名

python - Spark - 创建嵌套数据框