hadoop - Flume NG FileChannel 很慢

标签 hadoop hdfs flume filechannel

我一直在试验flume ng(flume-ng-1.2.0+24.81-1~lucid),一直在比较内存 channel 和文件 channel 的性能。

我的测试系统中的每个事件大小为 1KB,使用我当前的配置,我能够使用内存 channel 处理大约 30,000 个 EPS。但是,当使用文件 channel 时,我只能处理大约 1600 EPS。

平均而言,我希望在我的生产系统上平均接收 2500 EPS,并且我想使用文件 channel 在接收器故障的情况下提供大约 1 小时的事件缓冲(我正在使用具有 1Gbps 连接的 HDFS 接收器到hadoop集群)。

这是我的文件 channel 配置:

agent.channels.c1.checkpointDir = ~/.flume/file-channel/checkpoint
agent.channels.c1.dataDirs = ~/.flume/file-channel/data
agent.channels.c1.transactionCapacity = 13107200
agent.channels.c1.checkpointInterval = 30000
agent.channels.c1.maxFileSize = 9216000000
agent.channels.c1.minimumRequiredSpace = 524288000
agent.channels.c1.capacity = 9000000
agent.channels.c1.keep-alive = 3
agent.channels.c1.write-timeout = 3
agent.channels.c1.checkpoint-timeout = 600
agent.channels.c1.use-log-replay-v1 = FALSE
agent.channels.c1.use-fast-replay = FALSE

我的 HDFS 接收器的批量大小已设置为 5000。

任何人都可以就如何提高文件 channel 的性能提出任何建议吗?

谢谢

最佳答案

1.2.0 版很奇怪。当前的发布版本是 1.3.1。

也就是说,trunk 是 1.4.0-SNAPSHOT 并且 ~ 可能 ~ 会在 6 月底发布。我相信 FileChannel 在那个时候有一些更新,所以你可能想使用它的构建重新测试。
(mvn install -Dmaven.test.skip=true 是你的 friend )。

其次,您是否考虑过将 checkpointDir 和 dataDirs 指向它们自己的磁盘?

关于hadoop - Flume NG FileChannel 很慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16711067/

相关文章:

sql - 将 Oracle 数据导入 Hadoop

hadoop - HBase 表大小比 hadoop hdfs 中的文件大得多

hadoop - DSE 4.7 中奇怪的 dse hive 集成

hadoop - 哪些场景我们不给文件分配 block ?

hadoop - 当要插入hdfs的数据大于datanode的容量时会发生什么

hadoop - 由于配置错误,Flume 源已被删除

hadoop - 如何在不解压缩的情况下获得在lzo文件中压缩的文件的大小?

java - Jobtracker API 错误 - 调用 localhost/127.0.0.1 :50030 failed on local exception: java. io.EOFException

hadoop - 如何使用水槽获取实时推文?

hadoop - sink.hdfs writer 在我的文本文件中添加了垃圾