cluster-computing - 如何从神经节报告中排除监控服务器?

标签 cluster-computing monitoring ganglia

我在 EC2 中运行神经节并且报告运行良好。我正在运行 gmetad 来监控来自管理报告实例的数据库集群,该实例是我们所有系统的集中仪表板。我不希望此实例包含在监控中。在管理员 gmond.conf 中,我设置了:

mute = yes

但这只会使 Web 前端显示主机已死。在管理员 gmetad.conf 中,我将 data_source 设置为:
data_source "cluster" ec2-X-X-X-X.compute-1.amazonaws.com

(ec2-X-X-X-X.compute-1.amazonaws.com 是管理实例的 ec2 主机名)

我想设置mute=yes会将其从报告和 gstat 中删除,但两者仍将管理主机 (localhost) 显示为已死。

有没有办法做到这一点?

最佳答案

您需要设置 host_dmax属性为 gmond.conf 文件中 0 以外的值。
对我来说,静音 Ganglia 主机最初出现(重新启动后),但在我为 host_dmax 设置的时间后消失。 .尽管 mute 仍不清楚为什么主机在重启后首先出现设置为是。cleanup_threshold属性也可能影响宿主消失的时间。
这在 Ganglia wiki 中有介绍:

The host_dmax value is an integer with units in seconds. When set to zero (0), gmond will never delete a host from its list even when a remote host has stopped reporting. If host_dmax is set to a positive number then gmond will flush a host after it has not heard from it for host_dmax seconds. By the way, dmax means "delete max".

The cleanup_threshold is the minimum amount of time before gmond will cleanup any hosts or metrics where tn > dmax a.k.a. expired data.

关于cluster-computing - 如何从神经节报告中排除监控服务器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14284822/

相关文章:

fortran - 在 slurm 中使用 srun 或 mpirun 时作业失败

MySQL集群数据/SQL节点在ndbd下连接但在mysqld下不连接

powershell - 无法检索群集可用存储的物理大小

c++ - 我如何在 ubuntu 中分析 TLB 命中和 TLB 未命中

performance - 如何获取 spark 作业的指标?

hadoop - JMX-SflowAgent 停止从 aspectj 检测的 WebSphere Application Server 收集 JVM 指标

rrdtool - Ganglia/RRD 工具中的 load_one 度量 Y 轴是什么意思?

python - 如何在 mpi4py 中分散和收集 python 对象列表

monitoring - Prometheus 不会将警报推送到 AlertManager

linux - 每个进程/套接字的批量网络监控(Linux,shell)