bigdata - Apache Nifi 与 Gobblin

我正在评估一个大数据项目，我们需要从各种互联网来源(ftp、api 等)提取大量大数据集，进行轻量级转换和轻量级数据质量/健全性检查(例如:行和列检查)，并将其推向下游。直接关注点是批量的，但预计会支持流式传输。易于大规模支持是一项重要要求。

我们正在研究 Apache Nifi 和 Gobblin，它们似乎在意图上有所重叠。哪种用例最适合哪个平台？他们将如何符合上述用例？

谢谢!

最佳答案

我的经验是使用 NiFi，我刚刚看过 Gobblin，但主要是，NiFi 本身就是一个应用程序，而 Gobblin 是一个框架。

在 NiFi 中，您将拥有一个 GUI，具有非常精细的授权，允许多个用户干预流程的不同部分，监控它等...... 另一件事是 NiFi 是“始终在线”和“始终在生产中”，您可以直接在目标上进行修改，因此，有一些保护措施以避免丢失数据(错误地，我均值)。

因此，我认为这两种解决方案或多或少可以做同样的事情，如果您有一个工作流程，您希望不时部署一次，Gobblin 可能更合适，但如果您想要一些东西，您可以提供一些用户权限直接在生产中干预部分流程，NiFi 将是最好的。

最后，还是要以编程为主:

关于bigdata - Apache Nifi 与 Gobblin，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49010622/