apache-spark - databricks 集群中的通用元数据

标签 apache-spark databricks azure-databricks databricks-connect

我的 Azure 云平台数据 block 实例中有 3-4 个集群。我想为所有集群维护一个公共(public)元存储。如果有人实现了这个,请告诉我。

最佳答案

我建议配置一个外部 Hive 元存储。默认情况下,Detabricks 在幕后旋转自己的 Metastore。但是您可以创建自己的数据库(Azure SQL 也可以,也可以使用 MySQL 或 Postgres)并在集群启动期间指定它。

详细步骤如下: https://learn.microsoft.com/en-us/azure/databricks/data/metastores/external-hive-metastore

注意事项:

关于apache-spark - databricks 集群中的通用元数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62839220/

相关文章:

apache-spark - 连接 IPython notebook 以触发在不同机器上运行的 master

apache-spark - 在 GCP Dataproc 上配置 Spark Executor

azure - Azure Databricks SparkSQL 是否支持递归查询

Databricks Magic Sql - 导出数据

docker - 自定义 Databricks 集群中缺少工作区目录

azure-data-lake - 从 Azure Databricks 中的 ADLS Gen2 加载文件时出现间歇性 HTTP 错误

为 Azure 服务主体名称创建 Azure Databricks PAT token

scala - java.lang.ClassCastException : org. apache.avro.generic.GenericData$Record 无法转换为 packagename.MyRecord

Java spark 到 hive 表插入到动态分区异常

azure - 如何使用ARM模板创建Databricks集群