我试图捕获 Apache Flume 元数据信息,但我没有看到它记录这些信息的位置。
如果我需要做任何预配置来捕获 Flume 元数据信息,请告诉我。
提前致谢。
最佳答案
Flume 组件在标准 Flume 日志 (/var/log/flume-ng) 中记录一些此类元信息。
例如,HDFS sink滚动时记录文件的路径:
19 апр 2013 13:00:07,063 INFO [hdfs-hdfs_sink-roll-timer-0] (org.apache.flume.sink.hdfs.BucketWriter.renameBucket:379) - Renaming hdfs://localhost/path/to/data/2013/04/19/12/data.1366358400751.tmp to hdfs://localhost/path/to/data/2013/04/19/12/data.1366358400751
Avro source记录每个收到的事件批处理:
19 апр 2013 13:00:07,175 DEBUG [New I/O server worker #1-31] (org.apache.flume.source.AvroSource.appendBatch:222) - Avro source avro_source: Received avro event batch of 100 events.
此外,Flume 中还有监控功能,允许向外部系统(例如 Ganglia)报告一些指标,例如已处理消息的总数、 channel 大小等。看看 http://flume.apache.org/FlumeUserGuide.html#monitoring .
关于hadoop - 如何捕获正在传输的数据的 Apache Flume 元数据信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16209210/