bigdata - Apache Nifi 与 Gobblin

标签 bigdata etl apache-nifi gobblin

我正在评估一个大数据项目,我们需要从各种互联网来源(ftp、api 等)提取大量大数据集,进行轻量级转换和轻量级数据质量/健全性检查(例如:行和列检查),并将其推向下游。直接关注点是批量的,但预计会支持流式传输。易于大规模支持是一项重要要求。

我们正在研究 Apache Nifi 和 Gobblin,它们似乎在意图上有所重叠。哪种用例最适合哪个平台?他们将如何符合上述用例?

谢谢!

最佳答案

我的经验是使用 NiFi,我刚刚看过 Gobblin,但主要是,NiFi 本身就是一个应用程序,而 Gobblin 是一个框架。

在 NiFi 中,您将拥有一个 GUI,具有非常精细的授权,允许多个用户干预流程的不同部分,监控它等...... 另一件事是 NiFi 是“始终在线”和“始终在生产中”,您可以直接在目标上进行修改,因此,有一些保护措施以避免丢失数据(错误地,我均值)。

因此,我认为这两种解决方案或多或少可以做同样的事情,如果您有一个工作流程,您希望不时部署一次,Gobblin 可能更合适,但如果您想要一些东西,您可以提供一些用户权限直接在生产中干预部分流程,NiFi 将是最好的。

最后,还是要以编程为主:

  • NiFi 允许您以图形方式进行编程,为您的“开发人员”提供非常精细的权限,以及在运行时更新“程序”(NiFi 流程)
  • Gobblin 似乎(从我查阅的资料来看)通过使用文本文件定义作业来工作,这似乎更像是一种“经典”开发工作流程,但可能更适合您的使用。

关于bigdata - Apache Nifi 与 Gobblin,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49010622/

相关文章:

java - 运行 GNU 并行 Java 作业

java - 在循环内执行文本数据

java - 如何使用java代码与系统命令行交互

json - JSON文档数据库中的键成本(mongodb,elasticsearch)

hadoop - apache hadoop最适合的开发框架是什么?

python - 未达到 Airflow 传感器超时

python - BigQuery : result set in UI and from API have different number of rows. 为什么?

java - 使用 Kafka Streams 进行自定义转换

hadoop - Nifi 错误 Wwth putsolrcontentstream 处理器

python - 如何在 Python 中使用 NiFi ExecuteScript 处理器?