hadoop - ganglia 生成的 rrd 文件过多,无法自动删除

标签 hadoop ganglia

我正在使用 ganglia 3.7.2 来监控 hadoop(2.6.0-cdh5.4.0) 集群(7 个服务器),并且我在 hadoop 和 hbase 上启用了 metrics2;
我在一台服务器上安装了 gmetad,在其他服务器上安装了 gmond 和 yum ;
刚开始,monitor运行很好,在ganglia网页上可以看到正常的monitor数据,但是问题是:
几个小时后,rrd文件太多,只好为路径/var/lib/ganglia/rrds做符号链接(symbolic link),几天后,rrd文件占用了将近1TB的磁盘空间,网页无法显示上监控数据,有人知道如何解决这个问题吗?

gmond 配置(使用单 channel ):

globals {
daemonize = yes
setuid = yes
user = ganglia
debug_level = 0
max_udp_msg_len = 1472
mute = no
deaf = no
allow_extra_data = yes
host_dmax = 86400 /*secs. Expires (removes from web interface) hosts in 1 day */
host_tmax = 20 /*secs */
cleanup_threshold = 300 /*secs */
gexec = no
send_metadata_interval = 60 /*secs */
}

最佳答案

解决了这个问题,我做了以下事情:

  • 将默认 rrd 规则更改为:
    RRA "RRA:AVERAGE:0.5:1:256""RRA:AVERAGE:0.5:24:512""RRA:AVERAGE:0.5:168:512""RRA:AVERAGE:0.5:672:512""RRA:AVERAGE: 0.5:5760:1024"
  • 关闭hadoop metric2的datanode.sink和nodemanager.sink;

  • 引用:http://www.perzl.org/ganglia/bestpractices.html##Best_Practices_Ganglia_Sampling

    关于hadoop - ganglia 生成的 rrd 文件过多,无法自动删除,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34893301/

    相关文章:

    hadoop - 用户可以通过setter方法设置HADOOP配置属性

    linux - 神经节中的 "cpu_intr"和 "cpu_sintr"是什么意思

    hadoop - Ganglia dfs.namenode.fileinfoops中的Hadoop指标。它代表什么?

    hadoop - 亚马逊弹性 map 减少 : Command Line Tools installation Issue?

    ganglia - 如何从 ganglia 的数据库中获取数据

    hadoop - Ganglia 看到节点但看不到指标

    java - 使用sqoop 1.4.5和hadoop 2.41时出错

    scala - 如何在scala中修复foreach()缺少的参数类型

    hadoop - 如何清除hadoop fifo队列?

    java - HBase 获取扫描器异常 - "This is supposed to be overridden by subclasses"