google-cloud-dataflow - 如何在 DataFlow 上使用自定义版本的 apache beam python SDK?

标签 google-cloud-dataflow apache-beam google-cloud-spanner

当前版本的 Apache Beam 不支持 google spanner 的类型代码 11 (json),因为它使用的 google-cloud-spanner 版本比当前版本落后两个主要版本。因此,我更新了自己的版本来执行此操作 - 还没有完全弄清楚如何在 Github 上进行适当的 PR 或运行测试。

无论哪种方式,这都需要一段时间。我听说有一种方法可以在 DataFlow 上指定自定义 Apache Beam SDK,但那是 3 年前的事了,并不具体。还可以吗?我需要将 SDK 保存在什么类型的文件中 - zip、tar、tar.gz?该存档中需要包含哪些文件夹? apache_beam、apache_beam-2.34.0.dist-信息?只是 apache_beam 中的文件?我是否只需在 PipelineOptions 中的 sdk-location="gs://bucket"中设置选项?

谢谢。

最佳答案

构建容器后,您需要确保使用的是 runner V2,并且还需要像这样设置 sdk_container_image 标志(其他标志与 wordcount 并且可能与您的管道无关):

python -m apache_beam.examples.wordcount \
  --input=INPUT_FILE \
  --output=OUTPUT_FILE \
  --project=PROJECT_ID \
  --region=REGION \
  --temp_location=TEMP_LOCATION \
  --runner=DataflowRunner \
  --disk_size_gb=DISK_SIZE_GB \
  --experiments=use_runner_v2 \
  --sdk_container_image=$IMAGE_URI

在 Dataflow 上运行管道之前,您应该通过在本地运行一个小作业来确保容器正常工作,如下所示:

python path/to/my/pipeline.py \
  --runner=PortableRunner \
  --job_endpoint=embed \
  --environment_type=DOCKER \
  --environment_config=IMAGE_URI \
  --input=INPUT_FILE \
  --output=OUTPUT_FILE

请查看https://cloud.google.com/dataflow/docs/guides/using-custom-containers了解更多详情。

关于google-cloud-dataflow - 如何在 DataFlow 上使用自定义版本的 apache beam python SDK?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70069771/

相关文章:

python - 将 pcollection 的每一行拆分为多个 pcollection?

database - "Spanner operation failed"创建 NULL_FILTERED 索引

java - Apache Beam - BigQueryIO 读取投影

Java/Dataflow - 无法使用 ClassLoader 检测类路径元素

google-cloud-dataflow - 在 Apache Beam 中添加 2 个 Dofn 之间的依赖关系

python - 管道代码跨越 Apache Beam/Dataflow 中的多个文件

tensorflow - 如何使自定义指标可供 TFMA/Beam 使用?

java - Cloud Spanner 的数据流 : java. lang.IllegalArgumentException:Jetty ALPN/NPN 尚未正确配置

node.js - 在 Node.js 中使用 Cloud Spanner 插入查询

java - Apache Beam Maven 依赖错误