我写了将在生产服务器上全天候运行的flume代理。但是有一段时间我观察到,水槽静默地掉了下来。
我需要一种机制,当这种情况发生时,该机制至少可以向客户端/用户发出警报。
任何建议来处理这种情况。
最佳答案
首先,我认为最好检查日志以了解Flume崩溃的原因。如果什么都没有,请查看是否可以将日志记录级别更改为WARN
或INFO
,因为Flume不应该崩溃。它在我的盒子上已经运行了很长时间。
如果您想继续创建该监视机制:afaik Flume不支持这种方法,但是一个简单的bash脚本应该可以解决问题。这是一个例子。您必须自定义在Flume关闭时执行操作的命令。
#!/bin/bash
process_identification_str='flume-ng'
while "true"; do
ps=$(ps aux | grep "$process_identification_str" | grep -v 'grep')
if [ -z "$ps" ]; then
echo 'ALARM!'
fi
sleep 1
done
关于hadoop - Flume Agent故障处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33230700/