python - Google Cloud 数据流依赖项

标签 python tensorflow google-cloud-platform google-cloud-dataflow apache-beam

我想使用数据流并行处理我存储在谷歌存储中的一堆视频剪辑。我的处理算法具有非 Python 依赖项,预计会随着开发迭代而改变。


我的偏好是使用具有处理剪辑逻辑的 dockerized 容器,但似乎不支持自定义容器(2017 年):

use docker for google cloud data flow dependencies

尽管它们现在可能受到支持 - 因为它正在开发中:

Posthoc connect FFMPEG to opencv-python binary for Google Cloud Dataflow job

根据此问题,可以提取自定义 Docker 镜像,但我找不到任何有关如何使用数据流执行此操作的文档。

https://issues.apache.org/jira/browse/BEAM-6706?focusedCommentId=16773376&page=com.atlassian.jira.plugin.system.issuetabpanels%3Acomment-tabpanel#comment-16773376

另一种选择可能是使用 setup.py 安装任何依赖项,如本过时示例中所述:

https://cloud.google.com/blog/products/gcp/how-to-do-distributed-processing-of-landsat-data-in-python

但是,在运行示例时,我收到错误消息,指出没有名为 osgeo.gdal 的模块。

对于纯 python 依赖项,我也尝试传递 --requirements_file 参数,但是我仍然收到错误:Pip install failed for package: -r

我可以找到向 apache_beam 添加依赖项的文档,但不能找到向数据流添加依赖项的文档,根据我对 --requirements_file--setup_file 的测试,apache_beam 指令似乎不起作用

最佳答案

这已在评论中得到回答,为了清楚起见,在此处重写:

在 Apache Beam 中,您可以修改 setup.py 文件,该文件将在启动时每个容器运行一次。此文件允许您在 SDK Harness 开始从 Runner Harness 接收命令之前执行任意命令。

完整的example可以在 Apache Beam 存储库中找到。

关于python - Google Cloud 数据流依赖项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56996028/

相关文章:

python - 如何将 tokenizer.fit_on_texts() 应用于包含需要训练的两列对象/字符串的数据框?

Tensorflow:带有 logits 的 Softmax 交叉熵变为 inf

javascript - Dialogflow Webhook(Webhook 调用失败。错误 : 500 Internal Server Error)

python - 如何加快 Numpy 中的行选择?

python - 从数据框中查找新/现有客户

python - 添加链接到实现 HATEOAS 的 python-eve API 资源

kubernetes - Istio 1.5 cors 不工作 - 对预检请求的响应未通过访问控制检查

python user32.GetMessage永远不会退出

python - Keras:有什么方法可以到达 "pop()"顶层吗?

ubuntu - 远程桌面连接到 GCP 中的 Ubuntu