我刚开始学习spark,对这个概念有点迷惑,所以从spark安装中,我们得到了spark安装子文件夹下的pyspark,我理解它是一个shell,从python包中我们也可以通过 pip install pyspark 安装 python 包,这样我们就可以运行 python 代码而不是将其提交到集群,那么这两者之间有什么区别?同样在 anaconda 中,我们可以使用 findspark 并从那里使用 pyspark,这是否意味着它不使用 python 包中的 pyspark?
加上在现实世界中的 Spark 应用程序开发中,在哪些场景中使用的是什么?提前致谢 。
最佳答案
如果您使用 pip install
,那只会在本地安装必要的 Python 库,并且不会包含 spark-submit
脚本或其他通过下载所有 Spark 获得的 Spark 配置文件。
因此,在笔记本之外的 Spark 的“真实世界”中,您可以将 Python 代码打包为 Zip,然后使用该提交脚本将其提交到集群,或者以其他方式在代码本身中设置主节点和所有 Spark 选项,这不那么灵活
关于apache-spark - 来自 Spark 安装的 Pyspark VS Pyspark python 包,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58479357/