我最近尝试使用 NiFi -> Kafka -> Druid -> Superset 创建实时流式传输演示。出于本演示的目的,我选择使用 Wikipedia's RecentChanges API为了获得最新变化的异步数据。
我用这个 URL为了得到变化的回应。我调用 API constanlty 是为了不错过任何更改。通过这种方式,我得到了很多我不想要的重复项。
是否可以参数化此 API 以修复它,例如获取前一秒的所有更改并每隔一秒执行一次或其他操作以解决这个问题。我正在尝试为此使用 NiFi 进行配置,如果有人必须在该部分添加一些内容,请访问 Cloudera 上的讨论。 .
最佳答案
是的。参见 https://en.wikipedia.org/w/api.php?action=help&modules=query%2Brecentchanges使用 rcstart 和 rcend 定义开始和结束时间。您可以使用“now”表示 rcend。
关于rest - 使用维基百科的 RecentChanges API 进行实时数据流,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58521614/