azure - 在azure databricks中执行spark-submit而不创建新集群

标签 azure pyspark hql azure-databricks

所以,这是我的问题。我有一个 pyspark 作业存储在 dbfs 中,因为由于组织政策,我无法访问 databricks 存储库,并且由于组织政策,我在再次创建 Spark-submit 作业时无法创建新集群。他们有什么方法可以执行 pyspark 作业并向其传递参数吗?

最佳答案

不幸的是,Spark Submit 任务需要一个新的集群。根据 PySpark 作业的创建方式,您可以尝试以下操作(请参阅任务类型下拉列表):

enter image description here

  • 使用Python脚本任务 - 它允许从DBFS获取Python文件:

enter image description here

  • 使用 Pythonwheel 任务 - 如果您的代码打包为wheel文件

这两个任务都支持在现有的交互式集群上执行,但会花费更多。

关于azure - 在azure databricks中执行spark-submit而不创建新集群,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/75280608/

相关文章:

java - 与 java 应用程序集成时 Bing 翻译器异常

powershell - 以编程方式批量删除 Azure Blob 存储对象

apache-spark - 合并 Spark 数据框中的两列以形成单列

java - HiveContext createDataFrame 不适用于 pySpark (jupyter)

java - Hibernate 命名查询复制粘贴

python - 由于 pip install 找不到环境变量/应用程序设置,Azure Functions 部署失败

c# - 使用 HttpWebRequest 连接 Azure 服务总线中继(WCF 终结点)

apache-spark - 我们如何保存巨大的 pyspark 数据框?

java - hibernate 查询,用于搜索部分字符串

java - HQL 是否有 Restrictions.ilike 的等效项(用于不区分大小写的匹配)?