我有一个运行 kubernetes 1.16.9 的 GKE 集群。我正在尝试使用 Prometheus 和 Grafana 使监控系统正常工作。
我使用的仪表板是标准的“Kubernetes Cluster Monitoring”
https://grafana.com/grafana/dashboards/315
但是,当我导入它时,我看不到逐个 pod 的 CPU/内存使用情况,我只看到“值”:
我有另一个集群,使用 kubernetes 1.15 的设置几乎相同,仪表板完美地显示了每个 pod 和每个 pod 的使用情况。
为什么会这样?我对理解 prometheus/grafana 以及所有这些如何协同工作还很陌生。
什么可能导致这个问题?指标正在显示,并且 kubectl top pod 出现......所以我认为指标服务器运行良好......
关于尝试调试这个的任何提示?
最佳答案
遇到这个问题的不止您一个人。事情是这样的:pod_name
和 container_name
labels来自 kubelet在 1.14 中不推荐使用 pod 和容器,然后在 1.16 中删除
Removed metrics
Removed cadvisor metric labels pod_name and container_name to match instrumentation guidelines. Any Prometheus queries that match pod_name and container_name labels (e.g. cadvisor or kubelet probe metrics) must be updated to use pod and container instead. (#80376, @ehashman)
所以如上所述 -
任何与
pod_name
匹配的 Prometheus 查询和 container_name
标签(例如 cadvisor 或 kubelet 探针指标)必须更新以使用 pod
和 container
反而非常相似的问题供您引用 - Grafana dashboard not displaying pod name instead pod_name
顺便说一句,你试过这个吗? https://grafana.com/grafana/dashboards/11143
关于kubernetes - GKE 1.16.9 Prometheus,每个 pod 的 grafana 细节不起作用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63025921/