rest - 使用维基百科的 RecentChanges API 进行实时数据流

标签 rest apache-nifi wikipedia-api

我最近尝试使用 NiFi -> Kafka -> Druid -> Superset 创建实时流式传输演示。出于本演示的目的,我选择使用 Wikipedia's RecentChanges API为了获得最新变化的异步数据。

我用这个 URL为了得到变化的回应。我调用 API constanlty 是为了不错过任何更改。通过这种方式,我得到了很多我不想要的重复项。

是否可以参数化此 API 以修复它,例如获取前一秒的所有更改并每隔一秒执行一次或其他操作以解决这个问题。我正在尝试为此使用 NiFi 进行配置,如果有人必须在该部分添加一些内容,请访问 Cloudera 上的讨论。 .

最佳答案

是的。参见 https://en.wikipedia.org/w/api.php?action=help&modules=query%2Brecentchanges使用 rcstart 和 rcend 定义开始和结束时间。您可以使用“now”表示 rcend。

关于rest - 使用维基百科的 RecentChanges API 进行实时数据流,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58521614/

相关文章:

rest - 如何将凭证传递给NiFi Rest API

jquery - 如何解析 Wikipedia API 内容数据

Nifi 处理器中的 Java ExceptionInInitializer 错误

python-2.7 - 如何从 Wikidata Id 获取 Wikipedia 页面?

python - 并发 Python 维基百科包请求

c# - TFS REST API - 获取字段的允许值

http - 限制网络服务器响应 GET 请求可以返回的数据长度

node.js - 如何将数据库服务与分页和过滤隔离

java - 如何在 REST Web 服务中处理十万个请求?

apache-nifi - PostHTTP/InvokeHTTP 处理器的静态 header - NiFi