azure - 如何更改在 Azure Databricks 中运行作业的 Spark 用户？

标签 azure apache-spark pyspark databricks azure-databricks

我在 Azure Databricks 5.5 上使用 Spark。我通过 Databricks 工作区 UI 通过作业、笔记本和 Spark-submit 提交 Spark 作业。作业正在成功提交，Databricks 新集群正在生成或现有集群正在使用。但是，默认情况下，在执行器节点上运行作业的用户是root。是否可以更改在 Azure Databricks 上运行作业的用户(本质上不允许 SSH 访问)？

通常，当我在具有 Shell 访问权限的集群上使用 Spark-Submit CLI 时；我使用 sudo 更改用户:sudo -u exampleuser Spark-submit...。在此示例中，用户“exampleuser”存在于集群的所有节点上。因此，我想知道是否可以更改在 Azure Databricks 集群中运行 Spark 作业的用户。

最佳答案

与 Azure Databricks 团队讨论后，更改运行 Spark 作业的用户的正确方法是在集群创建期间设置环境变量 HADOOP_USER_NAME。这会将运行 Spark 作业的有效用户从 root 更改为用户 $HADOOP_USER_NAME

关于azure - 如何更改在 Azure Databricks 中运行作业的 Spark 用户？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57966777/

上一篇：sql-server - 使用 Azure DevOps 部署数据库期间出现错误 "The DELETE statement conflicted with the REFERENCE constraint"

下一篇：azure - 无法在 Linux 上的 Azure 应用服务上安装 "npm install -g botdispatch"

相关文章：

c# - 在 WCF Azure 服务总线中动态分配 json 响应内容类型

macos - 从 rc1-final 开始，ASP.NET 5 是否支持 Azure SQL？

azure - Application Insights - operation_Id 显示为非空，但打印值 "None"

java - 使用 Maven 部署 Azure Spring 应用程序会导致错误 : Invalid arguments: DeploymentSettings must be provided

apache-spark - Apache Kafka 和 Spark 流

scala - 解决线程 “main”中的异常java.lang.NoClassDefFoundError:org/apache/hadoop/fs/FSDataInputStream

python - 使用 Parquet 存储多个不同宽度的数据帧？

python - DataFrame - 值错误 : Unexpected tuple with StructType

pyspark - 如何提交依赖于 google dataproc 集群的 pyspark 作业

dataframe - PySpark 只保留日期中的年份和月份