azure - 防止使用 azure databricks 在 azure SQL DB 中插入重复数据

标签 azure azure-databricks

我正在通过以下场景将数据从 Azure Databricks 加载到 SQL DB。

  1. 我在 Azure DB mysalesorder 中有表
  2. 我在 ADLS 中有一些文件具有类似的数据,例如 mySalesOrder
  3. 我正在使用 Azure databricks 笔记本将数据插入 Azure SQL DB。

不,我可以使用 Azure Databricks jdbc 将 ADLS 文件中的数据插入到 AZURE SQL DB。

但我想知道如何防止 adls 文件中的重复行条目进入表中。

最佳答案

prevent from duplicate row entries into the table from adls files.

在目标表上创建唯一索引或主键。这将防止重复,但不会阻止您尝试插入重复但失败。

为此,要么将数据加载到临时表中,然后 MERGE使用 scala 或 java 中的 JDBC 语句(不是 JDBC Spark 连接器)将其插入目标表,或者在索引上打开 IGNORE_DUP_KEY。

关于azure - 防止使用 azure databricks 在 azure SQL DB 中插入重复数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74006152/

相关文章:

azure - 无法在 Azure 中使用 Webhook 传递属性注册事件网格订阅

azure - 合并 Microsoft Azure 逻辑应用程序中的 HTTP 响应

azure - 找不到授予管理员同意

azure - 如何使用 Azure Active Directory (AAD) 将数据从 Azure blob 读入 databricks 笔记本

amazon-web-services - 将 AWS Redshift 上的 Azure Databricks Spark 集群列入白名单

python - databricks:检查挂载点是否已挂载

c# - Windows Azure HPC 调度程序

c# - .NET Core 3.1 Identity 在 Azure 上登录需要很长时间

docker - 如何在Azure Databricks中使用自定义Docker镜像

mysql - 无法使用 jdbc 和 Spark 连接器从 databricks 群集连接到 Azure Database for MySQL 服务器