google-cloud-platform - 为什么 Dataflow 步骤未启动?

标签 google-cloud-platform google-cloud-dataflow apache-beam

我有一个线性三步数据流管道 - 由于某种原因,最后一步开始了,但前两步卡在 Not started 中。在我放弃并杀死工作之前很长一段时间。我不确定是什么原因造成的,因为这个相同的管道在过去已经成功运行,而且我很惊讶它没有在日志中显示任何关于阻止前两个步骤开始的错误。什么会导致这种情况,我该如何防止它发生?

最佳答案

发生这种情况是因为工作程序启动时出错。某些 Dataflow 步骤似乎不需要工作人员(例如写入 GCS),这就是该步骤能够启动的原因 - 即该步骤启动并不意味着工作人员正在被正确创建。默认情况下,工作日志中不显示工作器启动 - 您需要单击指向 Stackdriver 的链接在作业日志中,然后添加 worker-startup在日志中下拉以查看任何这些错误。

关于google-cloud-platform - 为什么 Dataflow 步骤未启动?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50300239/

相关文章:

firebase - 使用 Firebase Export Collections to BigQuery 扩展将 Firestore 数据以表格格式存储在 BigQuery 中

redis - 从 Apache Beam API 使用 RedisIO 时获取 'ERR EXEC without MULTI'。

python - TensorFlow: TypeError: int() 参数必须是字符串、类字节对象或数字,而不是 'NoneType'

google-cloud-dataflow - 使用 Google DataFlow 将数据直接流式传输到 Cloud SQL 的简单查询

python - 从 Python 中的 download_as_string 访问 blob 对象中的数据

permissions - 用于cluster-admin的GKE clusterrolebinding失败,出现权限错误

docker - 谷歌容器注册表: Permission issue while trying to pull/push images with authenticated credentials

java - Apache Beam - 与无限 PCollection 的集成测试

google-analytics - 如何将Google Analytics(分析)数据导入Google Cloud Platform?

java - 使用 PAssert containsInAnyOrder() 比较对象的测试管道