我正在使用 AWS batch
为了执行作业,我正在计算要按内容大小使用的初始内存。大约 90% 的情况下它成功了,但 10% 的情况下它失败了 OutOfMemory error
.
因此,对于此失败作业的下一次尝试,我想增加内存并再次提交作业。我无法使用 AWS 批处理 Job Attempts
为此,我需要一个不同的 故障转移策略 .
我可以使用的一种方法是让 lambda 每 1 小时检查一次作业状态,如果失败,则使用额外的内存再次提交作业。
还有其他更好的方法可以为 AWS Batch 作业制定故障转移策略吗?
最佳答案
好问题;我不知道有任何调度程序(LSF、SLURM、AWS Batch)支持这一点,因为恕我直言,这并不是调度程序应该做的——更多的是执行您的工作流程的引擎(想想 nextflow/ehive );
您可以使用 AWS 'containerInsights' 监控您的容器状态 - 请参阅
https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Container-Insights-metrics-ECS.html
希望这可以帮助你。
关于amazon-web-services - AWS Batch 故障转移策略,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45860849/