kubernetes - 有没有办法查询 Prometheus 来统计时间范围内失败的作业?

标签 kubernetes prometheus grafana

为 cron 作业收集了几个指标,不幸的是我不知道如何正确使用它们。

我想使用 kube_job_status_failed == 1 指标。我可以使用 job=~“+.myjobname.+“ 的正则表达式来聚合 cron 作业的所有失败尝试。

这就是我陷入困境的地方。有没有办法计算给定时间段内不同标签的数量(=失败尝试的次数)?

或者我可以以相反的方式使用指标,即检查给定时间段内是否有 kube_job_status_succeeded{job=~“+.myjobname+.“}==1

我觉得我已经很接近解决这个问题了,但我就是无法理解它。

编辑:添加图片This shows that there clearly are several succeded jobs over time, I just have no clue on how to count them

最佳答案

这应该为您提供 1 小时内与作业名称匹配的失败作业数量:

count_over_time(kube_job_status_failed{job=~“+.myjobname+.“}==1 [1h])

关于kubernetes - 有没有办法查询 Prometheus 来统计时间范围内失败的作业?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67131396/

相关文章:

postgresql - Grafana 是单独用来分析系统指标的吗?

ssl - Traefik 使用 DEFAULT CERT 而不是 Let's Encrypt 通配符证书

kubernetes - 与服务器本地主机的连接 :8080 was refused when the configuration does not point to localhost

docker - cAdvisor 容器多核 CPU 使用情况

grafana - Prometheus 直方图和包含 NaN 值的平均值集

grafana - Prometheus/Grafana Rate()....Y 轴的单位

grafana - 如何过滤掉grafana仪表板变量的某些值?

kubernetes - 在创建新Pod时注册kubectl exec命令

kubernetes - Kubernetes服务未获取其外部IP地址

mongodb - 使用 Prometheus 和 Grafana 监控 MongoDb