kubernetes - 有没有办法查询 Prometheus 来统计时间范围内失败的作业？

为 cron 作业收集了几个指标，不幸的是我不知道如何正确使用它们。

我想使用 kube_job_status_failed == 1 指标。我可以使用 job=~“+.myjobname.+“ 的正则表达式来聚合 cron 作业的所有失败尝试。

这就是我陷入困境的地方。有没有办法计算给定时间段内不同标签的数量(=失败尝试的次数)？

或者我可以以相反的方式使用指标，即检查给定时间段内是否有 kube_job_status_succeeded{job=~“+.myjobname+.“}==1？

我觉得我已经很接近解决这个问题了，但我就是无法理解它。

最佳答案

这应该为您提供 1 小时内与作业名称匹配的失败作业数量:

count_over_time(kube_job_status_failed{job=~“+.myjobname+.“}==1 [1h])

关于kubernetes - 有没有办法查询 Prometheus 来统计时间范围内失败的作业？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/67131396/

相关文章：

postgresql - Grafana 是单独用来分析系统指标的吗？