hadoop - Airflow :如何重新运行依赖的DAG

标签 hadoop bigdata airflow airflow-operator

假设我具有以下DAG依赖项:

        /> DAG B -->....
       /
      /
DAG A ---> DAG C -->...
      \
       \
        \> DAG D -->...

这些DAG每天运行,DAG B,C,D分别消耗DAG A的输出。

如果DAG A失败(例如Spark作业有错误,我们想在修复后重新执行),如何确保我们也重新运行DAG B,C,D等,以便现在它们以固定的DAG A运行输出?可以自动完成吗?

最佳答案

您可以有一个单独的主DAG ( controller_dag ),并使用 TriggerDagRunOperator 来触发不同的DAG。

可以通过以下方式设置使用 TriggerDagRunOperator 的任务之间的依赖关系:

dag_a >> [dag_b, dag_c, dag_d] >> ...

关于hadoop - Airflow :如何重新运行依赖的DAG,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60343103/

相关文章:

hadoop - 在非对称OS上安装Hadoop?

machine-learning - 机器学习与大数据

Hadoop:如何将 Reduce 的输出收集到 Java HashMap 中

airflow - 如何跳过 Airflow 上的任务?

airflow - 如何根据条件不在 DAG 中显示任务

scala - 何时坚持以及何时取消坚持 Spark 中的 RDD

sql - 单个配置单元查询以删除数据中的某些文本

hadoop - 每年出版书籍频率的 Pig 脚本

java - Hadoop 文本是可变的

python - 如何处理 Airflow 中的DAG lib?