我的 Azure 云平台数据 block 实例中有 3-4 个集群。我想为所有集群维护一个公共(public)元存储。如果有人实现了这个,请告诉我。
最佳答案
我建议配置一个外部 Hive 元存储。默认情况下,Detabricks 在幕后旋转自己的 Metastore。但是您可以创建自己的数据库(Azure SQL 也可以,也可以使用 MySQL 或 Postgres)并在集群启动期间指定它。
详细步骤如下: https://learn.microsoft.com/en-us/azure/databricks/data/metastores/external-hive-metastore
注意事项:
- Databricks 中的“数据”选项卡 - 您可以选择集群并查看不同的元存储。
- 要避免使用 SQL 用户和密码,请查看托管身份 https://learn.microsoft.com/en-us/azure/stream-analytics/sql-database-output-managed-identity
- 使用集群的初始化脚本自动连接外部 Hive Metastore
- 对您的来源进行权限管理。如果是 ADLS Gen 2,请考虑使用密码直通
关于apache-spark - databricks 集群中的通用元数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62839220/