我正在尝试运行数据流作业,具有以下 setup.py 文件:
import setuptools
setuptools.setup(
name='Some-Name',
version='0.0.1',
install_requires=[
'apache-beam==2.10.0',
'tensorflow-transform==0.12.0'
],
packages=setuptools.find_packages(),
)
但是当我将作业提交到 GCP 时,SDK 显示为 2.7.0 并且作业无法运行。 1 小时后它将停止并出现以下错误:
工作流程失败。原因:Dataflow 作业似乎被卡住,因为在过去 1 小时内没有看到工作线程事件。
最佳答案
我通过更新我提交数据流作业的本地虚拟环境中的 tensorflow-transform
和 apache-beam 解决了这个问题。一旦我更新了本地 apache-beam 和 tensorflow-transform
和 tensorflow
,它似乎就可以工作了。我不知道为什么,因为 setup.py
说明了软件包的版本。
关于python - Dataflow SDK 2.7.0,同时附加安装程序 2.10.0,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55214898/