airflow - Airflow 可以扩展多少?

标签 airflow airflow-scheduler

有没有人报告过他们在他们的公司中让 Airflow 扩展了多少?我正在考虑实现 Airflow 来执行 5,000 多个任务,每个任务每小时运行一次,有一天可以将其扩展到 20,000 多个任务。在检查调度程序时,它看起来可能是一个瓶颈,因为它只能运行一个实例,而且我担心调度程序将难以跟上的许多任务。我可以做?

最佳答案

我们每天在我的公司运行数千个任务,并且使用 Airflow 已经有 2 年的大部分时间了。这些 dag 每 15 分钟运行一次,并通过可以随时更改的配置文件生成(从 UI 输入)。

简短的回答 - 是的,它绝对可以扩展到这一点,具体取决于您的基础架构。一些新的 1.10 功能应该比我们运行的运行所有这些任务的 1.8 版本更容易。我们在一个大型 Mesos/DCOS 上运行了这个,它需要大量的微调才能达到稳定点。

长答案 - 虽然它可以扩展到那个,我们发现更好的解决方案是 多个 Airflow 实例 使用不同的配置(调度程序设置、工作人员数量等)针对他们正在运行的类型进行优化。一组运行长时间运行的机器学习作业的 DAG 应该托管在一个不同于运行 5 分钟 ETL 作业的 Airflow 实例上。这也让不同的团队更容易维护他们负责的工作,并更容易迭代所需的任何微调。

关于airflow - Airflow 可以扩展多少?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52063535/

相关文章:

airflow - 使用 "with dag as DAG(...)"子句创建 DAG 有好处吗

Airflow:只有一项任务的简单 DAG 永远不会完成

Airflow:通过 UI 在 Airflow 中创建 DAG

workflow - 使用 Apache Airflow 建模扇出工作流程

无论下游发生什么情况,Airflow 任务都会运行

Airflow 以编程方式取消暂停 dag?

airflow - Airflow 中运行不需要的 DAG

使用插件导入 DAG 时出现 Airflow 错误 - 只能在运算符(operator)之间设置关系

python - Airflow 中的成功邮件

airflow - 如何跳过 Airflow 上的任务?