为 cron 作业收集了几个指标,不幸的是我不知道如何正确使用它们。
我想使用 kube_job_status_failed == 1
指标。我可以使用 job=~“+.myjobname.+“
的正则表达式来聚合 cron 作业的所有失败尝试。
这就是我陷入困境的地方。有没有办法计算给定时间段内不同标签的数量(=失败尝试的次数)?
或者我可以以相反的方式使用指标,即检查给定时间段内是否有 kube_job_status_succeeded{job=~“+.myjobname+.“}==1
?
我觉得我已经很接近解决这个问题了,但我就是无法理解它。
最佳答案
这应该为您提供 1 小时内与作业名称匹配的失败作业数量:
count_over_time(kube_job_status_failed{job=~“+.myjobname+.“}==1 [1h])
关于kubernetes - 有没有办法查询 Prometheus 来统计时间范围内失败的作业?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67131396/