java - 使用本地文件系统作为 Flume 源

我刚刚开始学习大数据，此时我正在研究 Flume。我遇到的常见示例是使用一些 Java 处理推文(来自 Cloudera 的示例)。

仅用于测试和模拟目的，我可以使用我的本地文件系统作为 Flume 源吗？特别是一些 Excel 或 CSV 文件？除了 Flume 配置文件之外，我是否还需要使用一些 Java 代码，就像在 Twitter 提取中一样？

这个来源是事件驱动的还是可轮询的？

感谢您的输入。

最佳答案

我假设您正在使用 cloudera 沙箱，并且正在谈论将文件放在您计划启动的水槽代理的本地沙箱上。水槽代理包含:

来源 channel 水槽

这些应该位于水槽代理的本地。可用水槽源列表在用户指南中:https://flume.apache.org/FlumeUserGuide.html .如果您只想使用 tail 或 cat 命令从文件流式传输数据，则可以使用 Exec 源。您还可以使用假脱机目录源将监视指定目录中的新文件，并在新文件出现时从中解析事件。仔细阅读用户指南。包含您需要的一切。

关于java - 使用本地文件系统作为 Flume 源，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30090981/

上一篇：java - 在 stanford core nlp 中获取位置

下一篇：java - 如何解决嵌套异常是 java.lang.NoClassDefFoundError : org/springframework/security/web/util/AntPathRequestMatcher

相关文章：

java - WSDL 显示不正确的 Soap 绑定(bind)地址

hadoop - 使用自定义接收器的Spark Streaming是否在所有用例中都可以更通用地代替Flume？

hadoop - 文件传输到HDFS

java - 多个 Flume-ng hdfs 接收器写入同一路径

hadoop - 如何使用水槽将同步文件复制到 HDFS？

Java Swing Gridlayout 垂直约束

java - maven RESTful Web 服务项目中的 SQLite

java - HTML 到文本，带有自定义链接点击监听器

Java RMI 和队列问题

hadoop - Flume HDFS Sink Flush 和 Roll 的区别