我刚刚开始学习大数据,此时我正在研究 Flume。我遇到的常见示例是使用一些 Java 处理推文(来自 Cloudera 的示例)。
仅用于测试和模拟目的,我可以使用我的本地文件系统作为 Flume 源吗?特别是一些 Excel 或 CSV 文件?除了 Flume 配置文件之外,我是否还需要使用一些 Java 代码,就像在 Twitter 提取中一样?
这个来源是事件驱动的还是可轮询的?
感谢您的输入。
最佳答案
我假设您正在使用 cloudera 沙箱,并且正在谈论将文件放在您计划启动的水槽代理的本地沙箱上。水槽代理包含:
来源 channel 水槽
这些应该位于水槽代理的本地。可用水槽源列表在用户指南中:https://flume.apache.org/FlumeUserGuide.html .如果您只想使用 tail 或 cat 命令从文件流式传输数据,则可以使用 Exec 源。 您还可以使用假脱机目录源将监视指定目录中的新文件,并在新文件出现时从中解析事件。 仔细阅读用户指南。包含您需要的一切。
关于java - 使用本地文件系统作为 Flume 源,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30090981/