所以,这是我的问题。我有一个 pyspark 作业存储在 dbfs 中,因为由于组织政策,我无法访问 databricks 存储库,并且由于组织政策,我在再次创建 Spark-submit 作业时无法创建新集群。他们有什么方法可以执行 pyspark 作业并向其传递参数吗?
最佳答案
不幸的是,Spark Submit 任务需要一个新的集群。根据 PySpark 作业的创建方式,您可以尝试以下操作(请参阅任务类型下拉列表):
- 使用
Python脚本
任务 - 它允许从DBFS获取Python文件:
- 使用
Pythonwheel
任务 - 如果您的代码打包为wheel文件
这两个任务都支持在现有的交互式集群上执行,但会花费更多。
关于azure - 在azure databricks中执行spark-submit而不创建新集群,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/75280608/