apache-spark - databricks 集群中的通用元数据

我的 Azure 云平台数据 block 实例中有 3-4 个集群。我想为所有集群维护一个公共(public)元存储。如果有人实现了这个，请告诉我。

最佳答案

我建议配置一个外部 Hive 元存储。默认情况下，Detabricks 在幕后旋转自己的 Metastore。但是您可以创建自己的数据库(Azure SQL 也可以，也可以使用 MySQL 或 Postgres)并在集群启动期间指定它。

注意事项:

Databricks 中的“数据”选项卡 - 您可以选择集群并查看不同的元存储。
要避免使用 SQL 用户和密码，请查看托管身份 https://learn.microsoft.com/en-us/azure/stream-analytics/sql-database-output-managed-identity
使用集群的初始化脚本自动连接外部 Hive Metastore
对您的来源进行权限管理。如果是 ADLS Gen 2，请考虑使用密码直通

关于apache-spark - databricks 集群中的通用元数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62839220/