Hadoop 摄取自动化技术

标签 hadoop apache-nifi data-ingestion

我的背景是;

10 个 csv 文件在夜间上传到我的服务器。

我的流程是:

  • 摄取:

    • 将文件放在HDFS上
    • 创建 ORC Hive 表并将数据放入其中。
  • 处理:

    • Spark 处理:转换、清理、合并......
    • 很多链式步骤(Spark Job)

我正在寻找最佳实践来自动化第一部分并触发第二部分。

  • Cron,sh,dfs 放置。
  • 奥齐?
  • Apache 尼菲?
  • 水槽?
  • 电话 :(

我也看到了 https://kylo.io/ ,它很完美,但我认为将其投入生产还很年轻。

提前致谢。

最佳答案

Oozie 和 Nifi 都将与 flume、hive 和 spark Action 结合使用。

所以您的(Oozie 或 Nifi)工作流程应该像这样工作

  1. cron 作业(或时间表)启动工作流程。

  2. 工作流程的第一步是 Flume 进程将数据加载到所需的 HDFS 目录中。您可以在没有 Flume 的情况下仅使用 HDFS 命令来执行此操作,但这将有助于维护您的解决方案以备将来扩展。

  3. 创建/更新表的配置单元操作

  4. 执行自定义 spark 程序的 Spark Action

确保通过适当的日志记录和通知处理工作流中的错误,以便您可以在生产中合理化工作流。

关于Hadoop 摄取自动化技术,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43376443/

相关文章:

regex - 使用 Apache Nifi 提取 HL7 值并应用正则表达式

mysql - Nifi 无法连接到本地 MySQL

snowflake-cloud-data-platform - 使用 Snowpipe - 加载小文件的最佳实践是什么。例如。每天数千个 4K 文件?

rest - 建议的基于 Hadoop 的设计/组件以获取定期 REST API 调用

hadoop - 集群的映射器估计

hadoop - 我们可以有任何命令来检查名称节点元数据吗

mysql - Nifi 处理器 CaptureChangeMySQL 可以处理模式名称模式中的连字符吗?

json - 将Elastic输出摄取到Elastic中

hadoop - Pig : Cannot locate pig-withouthadoop. jar 中的错误。执行 'ant jar-withouthadoop' ,然后重试

hadoop - 现实世界大数据开源应用示例