我试图在我的Web服务中编写嵌入式flume代理,以将日志传输到运行flume代理的另一个hadoop集群。要使用嵌入式flume代理,我们是否需要在运行Web服务的服务器中运行hadoop。
最佳答案
TLDR:我认为不。
较长的版本:我没有检查过,但是在开发人员指南(https://flume.apache.org/FlumeDeveloperGuide.html#embedded-agent)中说
Note: The embedded agent has a dependency on hadoop-core.jar.
(https://flume.apache.org/FlumeDeveloperGuide.html#embedded-agent)
在用户指南(https://flume.apache.org/FlumeUserGuide.html#hdfs-sink)中,您可以指定HDFS路径:
HDFS directory path (eg hdfs://namenode/flume/webdata/)
另一方面,您确定要与嵌入式代理一起工作,而不是在要放置数据并使用HTTP Source的地方运行Flume吗? (https://flume.apache.org/FlumeUserGuide.html#http-source)(...或您可以向其发送数据的任何其他来源)
关于hadoop - 嵌入式水槽代理是否需要Hadoop在集群上运行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39623823/