python - 定义 Apache Beam 管道的正确方法

标签 python google-cloud-dataflow apache-beam

我是 Beam 新手,正在努力寻找许多好的指南和资源来学习最佳实践。

我注意到的一件事是有两种定义管道的方法:

with beam.Pipeline() as p:
# pipeline code in here

或者

p = beam.Pipeline()
# pipeline code in here
result = p.run()
result.wait_until_finish()

是否存在首选每种方法的特定情况?

最佳答案

从代码片段中,我发现主要区别在于您是否关心管道结果。如果您想使用 PipelineResult 来监视管道状态或通过代码取消管道,您可以使用第二种样式。

关于python - 定义 Apache Beam 管道的正确方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56914241/

相关文章:

google-bigquery - 如何在 Dataflow 中使用 BigQuery Standard SQL?

python - Google Dataflow 上 Apache Beam 示例的权限错误

google-cloud-dataflow - 在 BigTable 中使用 Apache Beam 的 checkAndMutate(条件写入)

google-cloud-dataflow - 使用 DirectRunner 测试数据流并获得大量 verifyUnmodifiedThrowingCheckedExceptions

python - 类型错误:url() 获得意外的关键字参数 'name_space'

python - NullFunctionError : Attempt to call an undefined alternate function (glGenFramebuffers, glGenFramebuffersEXT)

google-cloud-datastore - 如何加快批量导入到多个工作人员的谷歌云数据存储?

java - 即使我正在传递 View ,"calling sideInput() with unknown view"异常?

python - 如何通过发送与模型相关的objects.all()来获取外键

python - 如何在 pandas 数据框中单元格中的列表中插入字符串值?