我想每天将大约 100 个小表(最少 5 条记录,最多 10000 条记录)从 SQL Server 加载到 Google BigQuery 中。我们创建了 100 个 Datafusion 管道,每个源表一个管道。当我们启动一个管道时,执行大约需要 7 分钟。当然,它启动 DataProc,连接到 SQL 服务器并将数据汇入 Google BigQuery。当我们必须按顺序运行它时,需要 700 分钟?当我们尝试在管道中并行运行时,我们受到网络范围的限制,即 256/3。 1 个管道启动 3 个 VM,其中 1 个主机 2 个从机。我们尝试过,但当我们并行启动超过 10 个管道时,性能会下降。 问题。这是正确的方法吗?
最佳答案
当多个管道同时运行时,会有多个 Dataproc 集群在后台运行,其中包含更多虚拟机并需要更多磁盘。有一些插件可以帮助您处理多个源表。正确使用的插件应该是 CDAP/Google 插件,名为 Multiple Table Plugins因为它允许多个源表。
在 Data Fusion 工作室中,您可以在 Hub
-> Plugins
中找到它。
要查看可用插件的完整列表,请访问 official documentation .
关于google-cloud-data-fusion - 谷歌数据融合: Loading multiple small tables daily,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62672611/