apache-spark - 来自 Spark 安装的 Pyspark VS Pyspark python 包

标签 apache-spark pyspark pyspark-sql

我刚开始学习spark，对这个概念有点迷惑，所以从spark安装中，我们得到了spark安装子文件夹下的pyspark，我理解它是一个shell，从python包中我们也可以通过 pip install pyspark 安装 python 包，这样我们就可以运行 python 代码而不是将其提交到集群，那么这两者之间有什么区别？同样在 anaconda 中，我们可以使用 findspark 并从那里使用 pyspark，这是否意味着它不使用 python 包中的 pyspark？

加上在现实世界中的 Spark 应用程序开发中，在哪些场景中使用的是什么？提前致谢。

最佳答案

如果您使用 pip install ，那只会在本地安装必要的 Python 库，并且不会包含 spark-submit 脚本或其他通过下载所有 Spark 获得的 Spark 配置文件。

因此，在笔记本之外的 Spark 的“真实世界”中，您可以将 Python 代码打包为 Zip，然后使用该提交脚本将其提交到集群，或者以其他方式在代码本身中设置主节点和所有 Spark 选项，这不那么灵活

关于apache-spark - 来自 Spark 安装的 Pyspark VS Pyspark python 包，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58479357/

上一篇：python - 尝试在 Mac OS 中使用 pycharm 运行此命令 "pipenv lock "时出现 pipenv 内部错误

下一篇：git - 如何将整个 vs 代码本地项目添加到 github

相关文章：

java - 将架构应用于 Java 对象的 Spark 数据集

python - 插入 DataFrame 列并根据 PySpark 或 Pandas 中的另一列进行排序

apache-spark - 使用 Spark 多集群改进 SQL 查询

apache-spark - 在 pyspark 中将 Unix(Epoch) 时间更改为本地时间

PySpark-Spark SQL : how to convert timestamp with UTC offset to epoch/unixtime?

apache-spark - Spark错误: Could not initialize class org. apache.spark.rdd.RDDOperationScope

python - 如何在pyspark中分解数据框的多列

apache-spark - 当您使用 Pyspark 时，您是否受益于 Kryo 序列化程序？

hadoop - 如何从 pyspark rdd 或分区确定原始 s3 输入文件名

python - Spark - 创建嵌套数据框