一旦使用 Python SDK 和 DataflowRunner
在 Google 云 Dataflow 中设计并测试了 Apache Beam 管道,将其放置在 Google 云中并管理其执行的便捷方法是什么? ?
部署和管理 Google Cloud Dataflow 的 Python SDK Apache Beam 管道执行的便捷方法是什么?
应该以某种方式打包吗?已上传至 Google 存储空间?创建数据流模板?除了开发人员从其开发环境执行它之外,如何安排其执行?
更新
最好不需要第三方工具,也不需要 Google 云和 Dataflow 之外的其他管理工具/基础设施。
最佳答案
直觉上你会期望“deploying a pipeline数据流文档的操作指南下的部分将介绍这一点。但你在“templates overview”中只找到了下面 8 个部分的解释。 ”部分。
根据该部分:
Cloud Dataflow templates introduce a new development and execution workflow that differs from traditional job execution workflow. The template workflow separates the development step from the staging and execution steps.
通常,您不需要从 Google Cloud 部署和执行 Dataflow 管道。但是,如果您需要与云中的非技术成员共享管道的执行,或者只是想触发它而不依赖于开发环境或第 3 方工具,那么数据流模板就是您所需要的。
开发并测试管道后,您可以从中创建数据流作业模板。
请注意:
To create templates with the Cloud Dataflow SDK 2.x for Python, you must have version 2.0.0 or higher.
您需要使用 DataflowRunner
以及管道选项来执行管道,这些选项将在 Google Cloud 存储上生成模板而不是运行它。
更多详情请参阅creating templates文档部分并从模板运行它,请参阅 executing templates部分。
关于python - 为 Google 云数据流部署和管理 Python SDK Apache Beam 管道执行的便捷方法是什么,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54389963/