我有要在 Kubernetes 上运行的批处理作业。我理解乔布斯的方式:
如果我选择restartPolicy: Never
这意味着如果 Job 失败,它将销毁 Pod 并重新调度到(可能)另一个节点上。如 restartPolicy: OnFailure
,它将重新启动现有 Pod 中的容器。我认为一定数量的失败是不可恢复的。有没有办法可以防止它在一段时间后重新安排或重新启动并清理不可恢复的作业?
我目前对此的解决方法的想法是让一些看门狗进程查看 retryTimes 并在指定的重试次数后清理作业。
最佳答案
松弛讨论总结:
不,没有重试限制。但是,从 v1.2 开始,您可以使用 activeDeadlineSeconds
设置作业的截止日期。 .系统应该停止重新启动,然后在达到最后期限时终止作业。
关于google-compute-engine - Kubernetes 作业是否有 'max-retries'?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35141607/