apache-spark - 使用 Airflow dag run 创建 EMR 集群,任务完成后 EMR 将终止

标签 apache-spark hadoop airflow amazon-emr

我有 Airflow 作业,它们在 EMR 集群上运行良好。我需要的是,假设我有 4 个 Airflow 作业需要 EMR 集群,假设 20 分钟才能完成任务。为什么我们不能在 DAG 运行时创建一个 EMR 集群,一旦作业完成,它就会终止创建的 EMR 集群。

最佳答案

当然,那将是对资源最有效的利用。让我警告你:这里面有很多细节;我会尽力列出尽可能多的内容。我鼓励您添加自己的综合答案,列出您遇到的任何问题和解决方法(一旦您解决了这个问题)


关于集群创建/终止


关于作业提交


关于apache-spark - 使用 Airflow dag run 创建 EMR 集群,任务完成后 EMR 将终止,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55227683/

相关文章:

java - 根据用户数据获取偏好

kubernetes - Kubernetes 与 Apache Airflow 的集成

python - 编排小型 Python 任务的最佳实践(大多数在 BigQuery 中执行 SQL)

celery - Airflow 尝试使用 worker ID 而不是 URL 访问 celery worker

hadoop - 如何从Apache Spark中的压缩(.zip)本地文件制作数据集/数据框

apache-spark - 如果在 S3 的 Parquet 文件中发现同一列的不同数据类型,AWS Glue 作业会在 Redshift 中创建新列

python - 在 PySpark 中使用多列从 groupby 中获取具有最大值的行

scala - 将 n 个元素的 RDD 转换为单个元素的 RDD

apache-spark - 将具有多个相同 key 的流写入到 delta lake

shell - 运行脚本以响应错误发生