hadoop - 如何捕获正在传输的数据的 Apache Flume 元数据信息

我试图捕获 Apache Flume 元数据信息，但我没有看到它记录这些信息的位置。

如果我需要做任何预配置来捕获 Flume 元数据信息，请告诉我。

提前致谢。

最佳答案

Flume 组件在标准 Flume 日志 (/var/log/flume-ng) 中记录一些此类元信息。

例如，HDFS sink滚动时记录文件的路径:

19 апр 2013 13:00:07,063 INFO  [hdfs-hdfs_sink-roll-timer-0] (org.apache.flume.sink.hdfs.BucketWriter.renameBucket:379)  - Renaming hdfs://localhost/path/to/data/2013/04/19/12/data.1366358400751.tmp to hdfs://localhost/path/to/data/2013/04/19/12/data.1366358400751

Avro source记录每个收到的事件批处理:

19 апр 2013 13:00:07,175 DEBUG [New I/O server worker #1-31] (org.apache.flume.source.AvroSource.appendBatch:222)  - Avro source avro_source: Received avro event batch of 100 events.

此外，Flume 中还有监控功能，允许向外部系统(例如 Ganglia)报告一些指标，例如已处理消息的总数、 channel 大小等。看看 http://flume.apache.org/FlumeUserGuide.html#monitoring .

关于hadoop - 如何捕获正在传输的数据的 Apache Flume 元数据信息，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16209210/

上一篇：hadoop - 使用Hadoop与两个数据集

下一篇：spring - Hadoop作业输入文件的位置

相关文章：

Hadoop 安装 : Namenode cannot be started

hadoop - 如何从 spark thrift 服务器使用 hadoop？

hadoop - 槽以近乎实时的方式复制RDBMS数据

html - 尝试使用高音扬声器数据加载 HDFS 时出错

twitter - Flume与TwitterSource和Elasticsearch Sink

hadoop - 如何计算hadoop中flume的吞吐量

hadoop fsck 不起作用

scala - 线程 “main” org.apache.hadoop.mapred.InvalidInputException中的异常

java - 不同的输出文件

hadoop - 哪个是组合小 HDFS block 的最简单方法？