amazon-web-services - AWS Batch 故障转移策略

标签 amazon-web-services aws-lambda aws-batch

我正在使用 AWS batch为了执行作业,我正在计算要按内容大小使用的初始内存。大约 90% 的情况下它成功了,但 10% 的情况下它失败了 OutOfMemory error .

因此,对于此失败作业的下一次尝试,我想增加内存并再次提交作业。我无法使用 AWS 批处理 Job Attempts为此,我需要一个不同的 故障转移策略 .

我可以使用的一种方法是让 lambda 每 1 小时检查一次作业状态,如果失败,则使用额外的内存再次提交作业。

还有其他更好的方法可以为 AWS Batch 作业制定故障转移策略吗?

最佳答案

好问题;我不知道有任何调度程序(LSF、SLURM、AWS Batch)支持这一点,因为恕我直言,这并不是调度程序应该做的——更多的是执行您的工作流程的引擎(想想 nextflow/ehive );

您可以使用 AWS 'containerInsights' 监控您的容器状态 - 请参阅

https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Container-Insights-metrics-ECS.html

希望这可以帮助你。

关于amazon-web-services - AWS Batch 故障转移策略,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45860849/

相关文章:

amazon-web-services - 日志组和日志流有什么区别?

amazon-web-services - 将标签添加到批处理作业并在成本管理器中查看它们

c++ - aws 批处理上的非法指令

java - AWS Java SDK - 无法通过区域提供商链找到区域

amazon-web-services - 使用 AWS ECS 服务和 Elastic LoadBalancer 向多个公共(public)端口公开

python - 从Amazon S3读取仅具有特定名称的文件

python - 尝试将 Python 列表保存到 S3 存储桶时出错。

aws-lambda - 如何在开发阶段通过计算机测试亚马逊 alexa 自定义技能?

node.js - API Gateway 二进制支持 .wav 文件

amazon-web-services - AWS Batch 作业在计算环境中以 Min vCPUs=0 启动时间过长