azure - 如何更改在 Azure Databricks 中运行作业的 Spark 用户?

标签 azure apache-spark pyspark databricks azure-databricks

我在 Azure Databricks 5.5 上使用 Spark。我通过 Databricks 工作区 UI 通过作业、笔记本和 Spark-submit 提交 Spark 作业。作业正在成功提交,Databricks 新集群正在生成或现有集群正在使用。但是,默认情况下,在执行器节点上运行作业的用户是root。是否可以更改在 Azure Databricks 上运行作业的用户(本质上不允许 SSH 访问)?

通常,当我在具有 Shell 访问权限的集群上使用 Spark-Submit CLI 时;我使用 sudo 更改用户:sudo -u exampleuser Spark-submit...。在此示例中,用户“exampleuser”存在于集群的所有节点上。 因此,我想知道是否可以更改在 Azure Databricks 集群中运行 Spark 作业的用户。

最佳答案

与 Azure Databricks 团队讨论后,更改运行 Spark 作业的用户的正确方法是在集群创建期间设置环境变量 HADOOP_USER_NAME。 这会将运行 Spark 作业的有效用户从 root 更改为用户 $HADOOP_USER_NAME

关于azure - 如何更改在 Azure Databricks 中运行作业的 Spark 用户?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57966777/

相关文章:

c# - 在 WCF Azure 服务总线中动态分配 json 响应内容类型

macos - 从 rc1-final 开始,ASP.NET 5 是否支持 Azure SQL?

azure - Application Insights - operation_Id 显示为非空,但打印值 "None"

java - 使用 Maven 部署 Azure Spring 应用程序会导致错误 : Invalid arguments: DeploymentSettings must be provided

apache-spark - Apache Kafka 和 Spark 流

scala - 解决线程 “main”中的异常java.lang.NoClassDefFoundError:org/apache/hadoop/fs/FSDataInputStream

python - 使用 Parquet 存储多个不同宽度的数据帧?

python - DataFrame - 值错误 : Unexpected tuple with StructType

pyspark - 如何提交依赖于 google dataproc 集群的 pyspark 作业

dataframe - PySpark 只保留日期中的年份和月份