etl - 用于 ETL 的 Apache NIFI

标签 etl apache-nifi

将 Apache NIFI 用于 ETL 过程的效果如何,源为 HDFS,目标为 Oracle DB。 Apache NIFI 与 Pentaho、Datastage 等其他 ETL 工具相比有哪些局限性?

最佳答案

NiFi的主要优势
NiFi的主要优点:

  • 直观的 gui,允许轻松检查数据
  • 强大的交货保证
  • 低延迟,您可以同时支持批处理和流式用例
  • 它可以处理任何格式,不仅限于 SQL 表,还可以移动日志文件等。
  • 架构感知,可以与 Kafka、Flink、Spark 等解决方案共享架构

  • NiFi 的主要限制
    NiFi 确实是一个移动数据的工具,您可以丰富单个记录,但通常会提到使用小 t 进行“EtL”。您不想在 NiFi 中做的典型事情是连接两个动态数据源。
    对于连接表,通常使用 Spark、Hive 或经典 ETL 替代方案等工具。
    对于加入流,经常使用 Flink 和 Spark Streaming 等工具。
    结论
    NiFi 是一个很棒的工具,您只需要确保将它用于正确的用例。如果需要,您可以使用其他工具来补充它。

    特强全披露:我是Cloudera的员工,该公司支持NiFi和Spark、Flink等其他项目。 我之前使用过其他 ETL 工具,但与 NiFi 的程度不同。

    关于etl - 用于 ETL 的 Apache NIFI,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45775882/

    相关文章:

    mysql - 如何计算/处理大量数据?

    java - 使用 Java 代码进行 ETL

    c# - Visual Studio 2019 - 无法将自定义管道对象添加到工具箱 SSIS

    linux - 从 Apache Nifi 中的 ExecuteProcess 调用远程 shell 脚本时,无法将环境变量作为敏感字段传递

    hadoop - PutHDFS关于Apache NiFi错误

    error-handling - 如何在 apache nifi 中捕获公告消息

    curl - 如何使用 Curl 在 apache Nifi 中创建处理器的连接和删除

    java - 未调用自定义 nifi 处理器 TO Enable 注释

    python - 如何使用python在数据库之间进行ETL?

    sql-server - 将批量 JSON 数据加载到 SQL Server 表中