Hadoop 摄取自动化技术

我的背景是；

10 个 csv 文件在夜间上传到我的服务器。

我的流程是:

我正在寻找最佳实践来自动化第一部分并触发第二部分。

我也看到了 https://kylo.io/ ，它很完美，但我认为将其投入生产还很年轻。

提前致谢。

最佳答案

Oozie 和 Nifi 都将与 flume、hive 和 spark Action 结合使用。

所以您的(Oozie 或 Nifi)工作流程应该像这样工作

cron 作业(或时间表)启动工作流程。
工作流程的第一步是 Flume 进程将数据加载到所需的 HDFS 目录中。您可以在没有 Flume 的情况下仅使用 HDFS 命令来执行此操作，但这将有助于维护您的解决方案以备将来扩展。
创建/更新表的配置单元操作
执行自定义 spark 程序的 Spark Action

确保通过适当的日志记录和通知处理工作流中的错误，以便您可以在生产中合理化工作流。

关于Hadoop 摄取自动化技术，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43376443/

相关文章：

regex - 使用 Apache Nifi 提取 HL7 值并应用正则表达式