在 Snowflake 中,有一个名为 Snowpipe 的概念,它会自动将来自不同数据源的数据加载到配置的表中。
我们正在尝试通过 Snowpipe 加载到雪花中时进行归一化。
Table A:
Id & EmployerName
Table B:
Id, Employeename & EmployerID
文件中的值
Name, EmployerName
Raj, Google
Kumar, Microsoft
我们无法在同一个管道中填充表 A 和表 B,因为该管道只有一个复制语句。
是否有依赖 PIPE 等概念先加载查找表并从示例文件加载主表?
注意:
- 如果我们有两个管道,我们将无法指定依赖关系。
最佳答案
只要源数据在云提供商的 blob 存储位置可用,就应该使用 Snowpipe 将数据加载到表中。您不能在 Snowpipes 之间设置依赖关系,这无论如何都会增加管道的延迟。
最好的办法是设置两个 Snowpipes,以便在数据到达 blob 存储时立即加载两个表,然后使用 Snowflake tasks处理依赖关系和业务逻辑。
关于snowflake-cloud-data-platform - Snowflake 上的依赖 SnowPipe,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59316585/