hadoop - 在大数据平台上从 'Near Real Time'中的新闻Web API提取数据的最佳方法

我有一个用例，第一步是将新闻API或新闻聚合器API的数据提取到HDFS中。此数据提取应在NRT的基础上完成(例如每15分钟一次)
目前，我正在研究2种方法:

基于Python的解决方案。(目前，它不是通用代码)。

基于Apache NiFi的框架。(但NiFi似乎与Hortonworks以外的其他发行版存在一些兼容性问题)

希望有更多建议，这是一种与平台无关的方法，可以在不同的Hadoop发行版(Cloudera，HW等)上使用。

谢谢。

最佳答案

Apache NiFi绝对可以处理您的过程，并且可以在Windows，MacOS和大多数Linux发行版上很好地运行(我已经在Ubuntu，Redhat，CentOS，Amazon Linux和Raspbian上运行了它)。它不需要Hadoop，但可以与Hortonworks或Cloudera Hadoop发行版一起使用。

我使用NiFi构建了RSS查看器，使用GetHTTP-> TransformXML-> PutFile将RSS提取，提取并保存到磁盘。
NiFi然后列出浏览器请求，并使用HandleHttpRequest-> GetFile-> TransformXML-> HandleHttpResponse将RSS作为HTML表返回。

关于hadoop - 在大数据平台上从 'Near Real Time'中的新闻Web API提取数据的最佳方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44910649/

上一篇：docker - 完成容器后，从容器中复制文件

下一篇：Dockerfile 错误 "port is already allocated"。如何解决这个问题呢？

相关文章：

hadoop - yarn application id 是如何生成的

java - SemanticException [错误 10014] 配置单元 UDF

unit-testing - 单元测试大数据的方法

apache-nifi - Apache Nifi - 使用 Kafka + 合并内容 + 放置 HDFS 以避免小文件

hdfs - Nifi List 来自多个路径的文件并将它们路由到各自的目的地

hadoop - 如何使用Flume将数据实时写入HDFS？

hadoop - 让多个 reducer 在 HDFS 中创建多个输出文件

java - MapReduce Hadoop作业总体进展

java - pig 错误 : Could not find or load main class org. apache.pig.Main

regex - nifi route文本处理器使用问题