python - Airflow scheduler 是否有可能在开始下一天之前先完成前一天的周期?

标签 python python-3.x airflow scheduler

现在,我的 DAG 中的节点会在该 DAG 的其余节点完成之前继续执行第二天的任务。有没有办法让它在进入第二天的 DAG 周期之前等待 DAG 的其余部分完成?

(我确实将 depends_on_past 设为 true,但在这种情况下不起作用)

我的 DAG 看起来像这样:

               O
               l
               V
O -> O -> O -> O -> O

此外,dag 的 TreeView 图片]

tree view pic of the dag

最佳答案

这个答案可能有点晚了,但我遇到了同样的问题,我解决它的方法是在每个 dag 中添加两个额外的任务。开头为“Previous”,结尾为“Complete”。上一个任务是监视上一个作业的外部任务传感器。 Complete 只是一个虚拟运算符。假设它每 30 分钟运行一次,所以 dag 看起来像这样:

dag = DAG(dag_id='TEST_DAG', default_args=default_args, schedule_interval=timedelta(minutes=30))

PREVIOUS = ExternalTaskSensor(
    task_id='Previous_Run',
    external_dag_id='TEST_DAG',
    external_task_id='All_Tasks_Completed',
    allowed_states=['success'],
    execution_delta=timedelta(minutes=30),
    dag=DAG
)

T1 = BashOperator(
    task_id='TASK_01',
    bash_command='echo "Hello World from Task 1"',
    dag=dag
)

COMPLETE = DummyOperator(
    task_id='All_Tasks_Completed',
    dag=DAG
)

PREVIOUS >> T1 >> COMPLETE

所以下一个 dag,即使它会进入队列,它也不会让任务运行,直到 PREVIOUS 完成。

关于python - Airflow scheduler 是否有可能在开始下一天之前先完成前一天的周期?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41009228/

相关文章:

python - 如何将数据类型从 python pandas 映射到 postgres 表?

python - 规范化数据框的列

r - 我们可以使用 pandas dataframe 创建一个困惑的表吗?

python - 命令 "python setup.py egg_info"失败

python - Plotly 箱形图关闭异常值检测

python - 使用 nlp/spacy 查找相似之处

python-3.x - 将图形写入 Google Cloud Storage 而不是本地驱动器

python - 获取前N行文件数据

ubuntu - 尝试使用 systemd 在 ubuntu 服务器上运行 apache Airflow

Airflow 1.9 - SSHOperator 似乎不起作用?