apache-nifi - 控制Nifi读取3个表以合并所有表的内容

标签 apache-nifi

我正在尝试读取 3 个 HBase 表上的新表条目(使用 GetHBase 处理器)并将它们合并到单个 JSON 中。但是,每个 GetHBase 处理器在其各自的表上发生新插入时立即运行。最后合并内容(使用 MergeContent 处理器)后,我分别获得 3 个表的数据的 3 个 JSON。有没有办法控制 HBase 读取并仅在所有 3 个表都获取新数据时合并它们?

最佳答案

如果您以相同的频率安排三个 GetHBase 处理器(假设每 5 分钟一次)并同时启动它们,那么它们应该在相似的时间生成一个流文件。唯一奇怪的情况可能是,如果从 HBase 检索数据需要更长的时间,因此您可能需要确保调度周期比从 HBase 检索数据的最长预期时间长。

一旦它们都以相同的频率安排,您就可以将 MergeContent 设置为最小组大小为 3,它应该等到看到所有三个流文件。

我不清楚您是在询问连接三个表中的记录,还是简单地合并它们。上述方法是将它们合并,您将得到一个流文件,其中内容依次包含三个传入流文件的内容。

关于apache-nifi - 控制Nifi读取3个表以合并所有表的内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42560901/

相关文章:

java - 带Hive的NiFi PutHiveStreaming处理器:无法连接到EndPoint

java - PKIX 路径构建 - 通过 InvokeHTTP 处理器调用 API 时 NIFI 抛出错误

apache-nifi - 为什么 NiFi 不应该限制管理员用户的策略删除?

hadoop - nifi putHDFS 写入本地文件系统

java - Apache Nifi 与 kafka SASL_PLAINTEXT 的连接问题

apache-nifi - 如何在 NiFi 表达式语言中使用正则表达式捕获组变量?

apache-nifi - 面向记录的 InvokeHTTP 处理器

cassandra - Apache Nifi/Cassandra - 如何将 CSV 加载到 Cassandra 表中

java - 无法使用Flink-nifi连接器从Nifi输出端口读取数据

csv - 如何将这个 csv 文件拆分成多个内容?