google-cloud-dataflow - 如何在 DataFlow 上使用自定义版本的 apache beam python SDK？

当前版本的 Apache Beam 不支持 google spanner 的类型代码 11 (json)，因为它使用的 google-cloud-spanner 版本比当前版本落后两个主要版本。因此，我更新了自己的版本来执行此操作 - 还没有完全弄清楚如何在 Github 上进行适当的 PR 或运行测试。

无论哪种方式，这都需要一段时间。我听说有一种方法可以在 DataFlow 上指定自定义 Apache Beam SDK，但那是 3 年前的事了，并不具体。还可以吗？我需要将 SDK 保存在什么类型的文件中 - zip、tar、tar.gz？该存档中需要包含哪些文件夹？ apache_beam、apache_beam-2.34.0.dist-信息？只是 apache_beam 中的文件？我是否只需在 PipelineOptions 中的 sdk-location="gs://bucket"中设置选项？

谢谢。

最佳答案

构建容器后，您需要确保使用的是 runner V2，并且还需要像这样设置 sdk_container_image 标志(其他标志与 wordcount 并且可能与您的管道无关):

python -m apache_beam.examples.wordcount \
  --input=INPUT_FILE \
  --output=OUTPUT_FILE \
  --project=PROJECT_ID \
  --region=REGION \
  --temp_location=TEMP_LOCATION \
  --runner=DataflowRunner \
  --disk_size_gb=DISK_SIZE_GB \
  --experiments=use_runner_v2 \
  --sdk_container_image=$IMAGE_URI

在 Dataflow 上运行管道之前，您应该通过在本地运行一个小作业来确保容器正常工作，如下所示:

python path/to/my/pipeline.py \
  --runner=PortableRunner \
  --job_endpoint=embed \
  --environment_type=DOCKER \
  --environment_config=IMAGE_URI \
  --input=INPUT_FILE \
  --output=OUTPUT_FILE

请查看https://cloud.google.com/dataflow/docs/guides/using-custom-containers了解更多详情。

关于google-cloud-dataflow - 如何在 DataFlow 上使用自定义版本的 apache beam python SDK？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/70069771/

google-cloud-dataflow - 如何在 DataFlow 上使用自定义版本的 apache beam python SDK？

上一篇：flutter - 在隔离中使用类的特定实例

下一篇：Python路径差异