当我有潜在的重复行时,我应该如何每天在 BigQuery 中导入数据?
这是一些上下文。我每天都将数据从电子表格更新到 BigQuery。我正在使用带有简单 WRITE_APPEND 方法的 Google App Script。
有时我会导入前一天已经导入的数据。所以我想知道如何避免这种情况?
我可以构建一个 sql 查询,以便每天从重复行中清除我的表吗?或者这是否有可能在导入它们之前检测到重复(例如,在我的作业定义中使用一些特定的命令......)?
谢谢 !
最佳答案
(需要#standardSql)
#standardSQL
INSERT INTO `fh-bigquery.tt.test_import_native` (id, data)
SELECT *
FROM `fh-bigquery.tt.test_import_sheet`
WHERE id NOT IN (
SELECT id
FROM `fh-bigquery.tt.test_import_native`
)
WHERE id NOT IN (...)
确保仅将具有新 ID 的行加载到表中。
关于google-bigquery - 如何避免和/或清除 BigQuery 中的重复行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48999488/