我正在通过以下场景将数据从 Azure Databricks 加载到 SQL DB。
- 我在 Azure DB mysalesorder 中有表
- 我在 ADLS 中有一些文件具有类似的数据,例如 mySalesOrder
- 我正在使用 Azure databricks 笔记本将数据插入 Azure SQL DB。
不,我可以使用 Azure Databricks jdbc 将 ADLS 文件中的数据插入到 AZURE SQL DB。
但我想知道如何防止 adls 文件中的重复行条目进入表中。
最佳答案
prevent from duplicate row entries into the table from adls files.
在目标表上创建唯一索引或主键。这将防止重复,但不会阻止您尝试插入重复但失败。
为此,要么将数据加载到临时表中,然后 MERGE使用 scala 或 java 中的 JDBC 语句(不是 JDBC Spark 连接器)将其插入目标表,或者在索引上打开 IGNORE_DUP_KEY。
关于azure - 防止使用 azure databricks 在 azure SQL DB 中插入重复数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74006152/