azure - 将增量表备份到不同的存储位置

标签 azure azure-blob-storage delta-lake

我有源增量表,它位于我们的开发资源组(如 dev1@dev)的容器上。我需要使用 prod1@prod 将这些数据文件准确地复制到我们的 prod 集群上的另一个存储位置。我们在两个地点都有类似的 t delta 表。我希望产品表具有与 DEV 上的数据相似的数据。我如何在 Azure 上执行此操作?

最佳答案

实现此目的的最简单方法是使用 Delta DEEP CLONE在 Azure Databricks 上执行。其主要优点是:

  • 它是事务性的 - 它保证复制完成,否则失败。禁止部分副本等。
  • 它是增量式的 - 当您第二次执行它时,它只会复制自上次以来的更改

命令本身可能如下所示:

CREATE OR REPLACE delta.`abfss://dev1@dev..../directory`
DEEP CLONE delta.`abfss://prod1@prod...../directory`

您可以在 blog post 中找到有关 DEEP CLONE 的更多信息

关于azure - 将增量表备份到不同的存储位置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70104436/

相关文章:

c# - CloudBlob.DownloadText 方法插入附加字符?

apache-spark - AWS Glue 可以抓取 Delta Lake 表数据吗?

python - 如何使用 Azure 存储帐户连接字符串使用 Delalake python API 与 Deltalake 连接?

performance - Azure SQL 性能缓慢

azure - 构建容器后如何从 Azure 管道中提取 Docker 镜像

php - 编辑 Laravel Azure Blob 存储的 x-ms-version

.net - foreach Azure.Pageable<BlobItem> 然后抛出 System.FormatException

merge - 数据 block 三角洲湖的 MERGE INTO 的 pyspark 等价物是什么?

azure - 如何在使用 Azure 数据工厂数据流传输之前从日志文件中删除特定字段

azure - 检查我的订阅中 Azure 存储帐户中使用的总空间