python - 运行 spark 作业 : python vs spark. 提交

标签 python apache-spark pyspark spark-submit

运行 spark 作业的常用方法似乎是使用 spark-submit 如下( source ):

spark-submit --py-files pyfile.py,zipfile.zip main.py --arg1 val1

作为 Spark 的新手，我想知道为什么第一种方法比从 python ( example ) 运行它更受欢迎:

python pyfile-that-uses-pyspark.py

前一种方法产生更多 examples在谷歌搜索主题时，但没有明确说明原因。其实这里还有一个Stack Overflow question其中一个答案，在下面重复，特别告诉 OP 不要使用 python 方法，但没有给出原因。

dont run your py file as: python filename.py instead use: spark-submit filename.py

有人可以提供见解吗？

最佳答案

@mint 您的评论或多或少是正确的。

The spark-submit script in Spark’s bin directory is used to launch applications on a cluster. It can use all of Spark’s supported cluster managers through a uniform interface so you don’t have to configure your application especially for each one.

据我了解，使用 python pyfile-that-uses-pyspark.py无法在集群上启动应用程序，或者至少这样做更困难。

关于python - 运行 spark 作业 : python vs spark. 提交，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55248030/

上一篇：perl - 遍历复杂的数据结构

下一篇：python-3.x - 通过递归方式反向双向链表不在python中迭代

相关文章：

python - 由于连接错误，Spark保存到elasticsearch失败

python - 如何在 PySpark 中将行值(时间序列)转置为列值？

python - 从 Python 使用 Spark 所需的库 (PySpark)

python - 最长等距子序列

arrays - Scala/Spark SQL 数组[行] 到数组(数组(值))

python - GPU 仅被使用 1-5% Tensorflow-gpu 和 Keras

scala - Spark 2.1.0 结构流与本地 CSV 文件

sql - 在pyspark问题中转换24小时日期格式

python - 通过多次连接自身表来创建新列

python - 将属性名称传递给 Python 中的函数