我的背景是;
10 个 csv 文件在夜间上传到我的服务器。
我的流程是:
摄取:
- 将文件放在HDFS上
- 创建 ORC Hive 表并将数据放入其中。
处理:
- Spark 处理:转换、清理、合并......
- 很多链式步骤(Spark Job)
我正在寻找最佳实践来自动化第一部分并触发第二部分。
- Cron,sh,dfs 放置。
- 奥齐?
- Apache 尼菲?
- 水槽?
- 电话 :(
我也看到了 https://kylo.io/ ,它很完美,但我认为将其投入生产还很年轻。
提前致谢。
最佳答案
Oozie 和 Nifi 都将与 flume、hive 和 spark Action 结合使用。
所以您的(Oozie 或 Nifi)工作流程应该像这样工作
cron 作业(或时间表)启动工作流程。
工作流程的第一步是 Flume 进程将数据加载到所需的 HDFS 目录中。您可以在没有 Flume 的情况下仅使用 HDFS 命令来执行此操作,但这将有助于维护您的解决方案以备将来扩展。
创建/更新表的配置单元操作
执行自定义 spark 程序的 Spark Action
确保通过适当的日志记录和通知处理工作流中的错误,以便您可以在生产中合理化工作流。
关于Hadoop 摄取自动化技术,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43376443/