google-cloud-dataflow - 数据流工作人员无法连接到数据流服务

标签 google-cloud-dataflow google-cloud-dataprep

我正在使用 Google Dataprep 启动 Dataflow 作业,但遇到了一些困难。

作为背景,我们使用 Dataprep 几个星期,在我们开始出现服务帐户授权问题之前,它运行没有问题。当我们最终解决这个问题时,我们重新启动了用于启动的作业,但它们失败了,并显示“数据流似乎被卡住了。”。

我们尝试了另一个非常简单的工作,但遇到了同样的错误。以下是完整的错误消息,作业在卡住一小时后失败:

数据流 -

(1ff58651b9d6bab2): Workflow failed. Causes: (1ff58651b9d6b915): The Dataflow appears to be stuck.

数据准备-

The Dataflow job (ID: 2017-11-15_00_23_23-9997011066491247322) failed. Please 
contact Support and provide the Dataprep Job ID 20825 and the Dataflow Job ID.

这种错误似乎有多种根源,我不知道从哪里开始。 提前致谢

最佳答案

请检查您的项目的默认网络是否有任何更改。这是工作人员无法联系服务、导致 1 小时超时的常见原因。

更新:

经过进一步调查,“编辑者”角色下缺少 Compute Engine 的 <project-number><a href="https://stackoverflow.com/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="3518565a58454041507551504350595a4550471b52465047435c56505456565a405b411b565a58" rel="noreferrer noopener nofollow">[email protected]</a> 服务帐户。这通常是自动创建的。可能后来被错误地删除了。请参阅 https://cloud.google.com/dataflow/security-and-permissions 中的“计算引擎服务帐户”部分。

我们正在努力修复问题,以改进对此类缺失权限的早期检测,以便更好地指出故障的根本原因。

这意味着您的其他 Dataflow 作业也会类似地失败。

关于google-cloud-dataflow - 数据流工作人员无法连接到数据流服务,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47303767/

相关文章:

node.js - 等待 Google Cloud Functions (Node-JS) 中的数据存储区回调

apache-spark - 谷歌云数据流 : Synchronize/merge multiple pipeline into one

google-cloud-platform - 按最新日期过滤 BigQuery 行的最有效方法

java - Google Dataflow/Dataprep Shuffle key 太大 (INVALID_ARGUMENT)

google-cloud-platform - Dataprep 将具有不同列数的文件导入到数据集中

google-cloud-platform - Google Dataflow - 调度

python - 如何从 PCollection Apache Beam Python 创建 N 个元素组

python - 光束/数据流 Python : AttributeError: '_UnwindowedValues' object has no attribute 'sort'