google-cloud-platform - Cloud Composer (Airflow) 作业卡住

标签 google-cloud-platform airflow google-cloud-composer

我的 Cloud Composer托管 Airflow由于我取消了一个耗时太长的任务实例,因此卡住了几个小时(我们称之为任务 A)

我已经清除了所有 DAG 运行和任务实例,但是有几个作业正在运行,一个作业处于关闭状态(我假设是任务 A 的作业)( snapshot of my Jobs )。

此外,似乎调度程序没有运行,因为 recently deleted DAGs keep appearing in the dashboard

有没有办法杀死作业或重置调度程序?任何摆脱 Composer 的想法都会受到欢迎。

最佳答案

您可以按如下方式重新启动调度程序:

从您的云 shell :

1. 确定您环境的 Kubernetes 集群:

gcloud composer environments describe ENVIRONMENT_NAME \
    --location LOCATION 

2.获取凭证并连接到Kubernetes集群:
gcloud container clusters get-credentials ${GKE_CLUSTER} --zone ${GKE_LOCATION}

3.运行以下命令重新启动调度程序:
kubectl get deployment airflow-scheduler -o yaml | kubectl replace --force -f -

步骤 1 和 2 详述 here .第 3 步基本上用它自己替换了“airflow-scheduler”部署,从而重新启动了服务。

如果重新启动调度程序没有帮助,您可能还需要重新创建您的 Composer 环境并在每次发生这种情况时对您的 DAG 进行故障排除。

关于google-cloud-platform - Cloud Composer (Airflow) 作业卡住,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51859609/

相关文章:

Airflow - 如何处理异步 API 调用?

airflow - Google Cloud Composer (Apache Airflow) 无法访问日志文件

python - 使用外部文件在 Airflow 中动态创建任务

google-cloud-platform - 谷歌云平台中的 AWS Dead Letter Queue 相当于什么?

javascript - 在 Cloud Functions for Firebase 中启用 CORS

airflow - Airflow 触发规则 "all_done"和 "all_success"有什么区别?

airflow - Airflow 运行时自定义 Operator XCom

.net - PubSub 上的 Http 400 推送到云运行

python - 谷歌应用引擎 Python : Error in yaml config file when deploying

kubernetes - 如何让Google Cloud Composer( Airflow )在其他kubernetes群集上运行作业?