azure - databricks 在工作流/作业中使用服务主体 + 远程存储库

标签 azure azure-devops databricks azure-databricks databricks-repos

我想创建一个 databricks 作业,其中所有者设置为服务主体。主要原因是,如果员工离开公司,没有什么可以改变的,也不会因为 PAT 失败或类似情况而导致工作中断。 问题是这样做时,作业总是无法访问设置为 azure devops 远程存储库的代码。问题和错误消息表明服务主体无法克隆 git 存储库。

我怎样才能做到这一点?

我的理解是,我可以使用 databricks 中的 git-credentials api 让服务主体使用我的 PAT token 之一来访问 git。不适合我。 https://docs.databricks.com/dev-tools/api/latest/gitcredentials.html#operation/create-git-credential

我知道一个解决方法,那就是构建轮子并发布它,这样“检查代码”就不是通过工作完成的,而是通过 CI/CD 提前完成。但由于远程存储库非常简单易用,我们也希望将该功能与服务主体一起使用。

有人使用过它并使它起作用吗?也许还可以选择允许服务主体访问 azure devops 本身,但我被告知这还不可能。

最佳答案

您的做法是正确的,可能只是错过了一些步骤。工作流程如下:

关于azure - databricks 在工作流/作业中使用服务主体 + 远程存储库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/75825072/

相关文章:

azure - 将 Windows Azure Web 角色升级到 Server 2008 R2 以使用 IIS 7.5

.net - 带有 Microsoft.AspNetCore.Identity .net 7 api 的 Azure AD SSO

c# - 存储要在 Azure 角色之间共享的静态文件

Azure AD 用户注册了密码哈希同步并通过身份验证

AirFlow DatabricksSubmitRunOperator 不接受笔记本参数

python - Azure-列具有无法参与列存储索引的数据类型

c# - 从 Azure 网站服务器检索时间戳 C#

angular - 在 Azure Pipeline 中构建 Angular 项目之前运行单元测试

azure-devops - Azure Pipelines 中变量的最大长度是多少?

azure - Databricks 笔记本因内存作业而崩溃