google-cloud-data-fusion - 谷歌数据融合: Loading multiple small tables daily

标签 google-cloud-data-fusion

我想每天将大约 100 个小表(最少 5 条记录,最多 10000 条记录)从 SQL Server 加载到 Google BigQuery 中。我们创建了 100 个 Datafusion 管道,每个源表一个管道。当我们启动一个管道时,执行大约需要 7 分钟。当然,它启动 DataProc,连接到 SQL 服务器并将数据汇入 Google BigQuery。当我们必须按顺序运行它时,需要 700 分钟?当我们尝试在管道中并行运行时,我们受到网络范围的限制,即 256/3。 1 个管道启动 3 个 VM,其中 1 个主机 2 个从机。我们尝试过,但当我们并行启动超过 10 个管道时,性能会下降。 问题。这是正确的方法吗?

最佳答案

当多个管道同时运行时,会有多个 Dataproc 集群在后台运行,其中包含更多虚拟机并需要更多磁盘。有一些插件可以帮助您处理多个源表。正确使用的插件应该是 CDAP/Google 插件,名为 Multiple Table Plugins因为它允许多个源表。

在 Data Fusion 工作室中,您可以在 Hub -> Plugins 中找到它。

要查看可用插件的完整列表,请访问 official documentation .

关于google-cloud-data-fusion - 谷歌数据融合: Loading multiple small tables daily,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62672611/

相关文章:

google-cloud-dataproc - Dataproc 集群的数据融合配置失败

cdap - 如何在Wrangler中使用自定义变换?

google-cloud-data-fusion - 停止 Cloud Data Fusion 实例

google-cloud-platform - PROVISION 任务在 REQUESTING_CREATE 状态下失败

google-cloud-data-fusion - 谁能帮我解决数据融合中的这个错误代码

google-cloud-data-fusion - 在 Cloud Data Fusion 中加载多个表失败并出现 DAG 错误

google-bigquery - 使用 Google Cloud Data Fusion 执行自定义 SQL 查询

google-cloud-data-fusion - 如何在数据融合中将架构文件作为宏传递到 BigQuery 接收器

google-cloud-platform - GCP Data Fusion 没有可发现的错误

google-cloud-data-fusion - 运行简单数据融合管道以从 Bigquery 导出数据并写入 GCS 时出现连接超时错误