当前版本的 Apache Beam 不支持 google spanner 的类型代码 11 (json),因为它使用的 google-cloud-spanner 版本比当前版本落后两个主要版本。因此,我更新了自己的版本来执行此操作 - 还没有完全弄清楚如何在 Github 上进行适当的 PR 或运行测试。
无论哪种方式,这都需要一段时间。我听说有一种方法可以在 DataFlow 上指定自定义 Apache Beam SDK,但那是 3 年前的事了,并不具体。还可以吗?我需要将 SDK 保存在什么类型的文件中 - zip、tar、tar.gz?该存档中需要包含哪些文件夹? apache_beam、apache_beam-2.34.0.dist-信息?只是 apache_beam 中的文件?我是否只需在 PipelineOptions 中的 sdk-location="gs://bucket"中设置选项?
谢谢。
最佳答案
构建容器后,您需要确保使用的是 runner V2,并且还需要像这样设置 sdk_container_image
标志(其他标志与 wordcount
并且可能与您的管道无关):
python -m apache_beam.examples.wordcount \
--input=INPUT_FILE \
--output=OUTPUT_FILE \
--project=PROJECT_ID \
--region=REGION \
--temp_location=TEMP_LOCATION \
--runner=DataflowRunner \
--disk_size_gb=DISK_SIZE_GB \
--experiments=use_runner_v2 \
--sdk_container_image=$IMAGE_URI
在 Dataflow 上运行管道之前,您应该通过在本地运行一个小作业来确保容器正常工作,如下所示:
python path/to/my/pipeline.py \
--runner=PortableRunner \
--job_endpoint=embed \
--environment_type=DOCKER \
--environment_config=IMAGE_URI \
--input=INPUT_FILE \
--output=OUTPUT_FILE
请查看https://cloud.google.com/dataflow/docs/guides/using-custom-containers了解更多详情。
关于google-cloud-dataflow - 如何在 DataFlow 上使用自定义版本的 apache beam python SDK?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70069771/