Databricks Delta 表 - 它们通常存储在哪里?

标签 databricks azure-databricks delta-lake

我正在开始我的增量表之旅,但仍然让我困惑的一件事是,如果您稍后需要查询增量表,那么保存增量表的最佳位置在哪里。

例如,我正在将多个表从本地迁移到 azure databricks 到单独的增量表中。我的问题是,我应该将大小可能很大的各个增量表保存到 DBFS databricks 内部存储中,还是应该安装 Blob 存储位置并将 Delta Lake 表保存在那里?在这些情况下人们通常会做什么?

最佳答案

我通常建议人们将数据存储在单独的存储帐户中(安装或直接使用),并且不要使用工作区的内部存储来执行该任务。主要原因 - 如果需要,可以更轻松地与其他工作区或其他系统共享此数据。内部存储应主要用于临时文件、库、初始化脚本等。

有许多有用的指南可以提供帮助:

关于Databricks Delta 表 - 它们通常存储在哪里?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66308635/

相关文章:

azure - 无法使用 Azure Databricks 安装 Azure Data Lake Storage Gen 2

azure - 任何 databricks 工作区集群如何访问 Databricks 内置 Hivestore?

google-cloud-dataproc - 在云 Dataproc 中的 Pyspark 作业上使用 DeltaTable.forPath 时出错

delta-lake - 内部部署的三角洲湖

apache-spark - PySpark - 时间戳行为

azure - 如何通过 URL 从 Azure Databricks 中的 DBFS 下载

python - 将spark转换为pandas数据帧有异常: arrow is not supported when using file-based collect

amazon-s3 - 如何修复 AWS S3 上损坏的 Delta Lake 表

apache-spark - 在 Databricks 上将 Spark.databricks.service.server.enabled 设置为 true 时到底会发生什么?

jupyter-notebook - 使用 Databricks 连接