java - 使用本地文件系统作为 Flume 源

标签 java flume

我刚刚开始学习大数据,此时我正在研究 Flume。我遇到的常见示例是使用一些 Java 处理推文(来自 Cloudera 的示例)。

仅用于测试和模拟目的,我可以使用我的本地文件系统作为 Flume 源吗?特别是一些 Excel 或 CSV 文件?除了 Flume 配置文件之外,我是否还需要使用一些 Java 代码,就像在 Twitter 提取中一样?

这个来源是事件驱动的还是可轮询的?

感谢您的输入。

最佳答案

我假设您正在使用 cloudera 沙箱,并且正在谈论将文件放在您计划启动的水槽代理的本地沙箱上。水槽代理包含:

来源 channel 水槽

这些应该位于水槽代理的本地。可用水槽源列表在用户指南中:https://flume.apache.org/FlumeUserGuide.html .如果您只想使用 tail 或 cat 命令从文件流式传输数据,则可以使用 Exec 源。 您还可以使用假脱机目录源将监视指定目录中的新文件,并在新文件出现时从中解析事件。 仔细阅读用户指南。包含您需要的一切。

关于java - 使用本地文件系统作为 Flume 源,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30090981/

相关文章:

java - WSDL 显示不正确的 Soap 绑定(bind)地址

hadoop - 使用自定义接收器的Spark Streaming是否在所有用例中都可以更通用地代替Flume?

hadoop - 文件传输到HDFS

java - 多个 Flume-ng hdfs 接收器写入同一路径

hadoop - 如何使用水槽将同步文件复制到 HDFS?

Java Swing Gridlayout 垂直约束

java - maven RESTful Web 服务项目中的 SQLite

java - HTML 到文本,带有自定义链接点击监听器

Java RMI 和队列问题

hadoop - Flume HDFS Sink Flush 和 Roll 的区别