运行 spark 作业的常用方法似乎是使用 spark-submit 如下( source ):
spark-submit --py-files pyfile.py,zipfile.zip main.py --arg1 val1
作为 Spark 的新手,我想知道为什么第一种方法比从 python ( example ) 运行它更受欢迎:
python pyfile-that-uses-pyspark.py
前一种方法产生更多 examples在谷歌搜索主题时,但没有明确说明原因。其实这里还有一个Stack Overflow question其中一个答案,在下面重复,特别告诉 OP 不要使用 python 方法,但没有给出原因。
dont run your py file as: python filename.py instead use: spark-submit filename.py
有人可以提供见解吗?
最佳答案
@mint 您的评论或多或少是正确的。
The spark-submit script in Spark’s bin directory is used to launch applications on a cluster. It can use all of Spark’s supported cluster managers through a uniform interface so you don’t have to configure your application especially for each one.
据我了解,使用
python pyfile-that-uses-pyspark.py
无法在集群上启动应用程序,或者至少这样做更困难。
关于python - 运行 spark 作业 : python vs spark. 提交,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55248030/