python - 为 Google 云数据流部署和管理 Python SDK Apache Beam 管道执行的便捷方法是什么

标签 python google-cloud-platform google-cloud-dataflow apache-beam

一旦使用 Python SDK 和 DataflowRunner 在 Google 云 Dataflow 中设计并测试了 Apache Beam 管道,将其放置在 Google 云中并管理其执行的便捷方法是什么? ?

部署和管理 Google Cloud Dataflow 的 Python SDK Apache Beam 管道执行的便捷方法是什么?

应该以某种方式打包吗?已上传至 Google 存储空间?创建数据流模板?除了开发人员从其开发环境执行它之外,如何安排其执行?

更新

最好不需要第三方工具,也不需要 Google 云和 Dataflow 之外的其他管理工具/基础设施。

最佳答案

直觉上你会期望“deploying a pipeline数据流文档的操作指南下的部分将介绍这一点。但你在“templates overview”中只找到了下面 8 个部分的解释。 ”部分。

根据该部分:

Cloud Dataflow templates introduce a new development and execution workflow that differs from traditional job execution workflow. The template workflow separates the development step from the staging and execution steps.

通常,您不需要从 Google Cloud 部署和执行 Dataflow 管道。但是,如果您需要与云中的非技术成员共享管道的执行,或者只是想触发它而不依赖于开发环境或第 3 方工具,那么数据流模板就是您所需要的。

开发并测试管道后,您可以从中创建数据流作业模板。

请注意:

To create templates with the Cloud Dataflow SDK 2.x for Python, you must have version 2.0.0 or higher.

您需要使用 DataflowRunner 以及管道选项来执行管道,这些选项将在 Google Cloud 存储上生成模板而不是运行它。

更多详情请参阅creating templates文档部分并从模板运行它,请参阅 executing templates部分。

关于python - 为 Google 云数据流部署和管理 Python SDK Apache Beam 管道执行的便捷方法是什么,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54389963/

相关文章:

Python:在 map 对象上调用 'list' 两次

python - IPython %timeit 选项中的循环和迭代是什么?

python - 使用 Python 分析音频文件

git - Google Compute Engine VM,添加的负载均衡器现在不能 git pull

amazon-web-services - 如何使用 BashOprator 在 Airflow 中使用 Airflow AWS 连接凭证将文件从 AWS s3 存储桶传输到 GCS

java - Google App Engine - 单个项目中的 Java 后端和 Angular 前端

java - 从 Google Cloud Dataflow 内部写入 Firestore

python - 从列表创建结构化数组

google-bigquery - 数据流到 BigQuery 配额

google-cloud-dataflow - 导入错误 : No module named options. value_provider