我有一个用例,第一步是将新闻API或新闻聚合器API的数据提取到HDFS中。此数据提取应在NRT的基础上完成(例如每15分钟一次)
目前,我正在研究2种方法:
希望有更多建议,这是一种与平台无关的方法,可以在不同的Hadoop发行版(Cloudera,HW等)上使用。
谢谢。
最佳答案
Apache NiFi绝对可以处理您的过程,并且可以在Windows,MacOS和大多数Linux发行版上很好地运行(我已经在Ubuntu,Redhat,CentOS,Amazon Linux和Raspbian上运行了它)。它不需要Hadoop,但可以与Hortonworks或Cloudera Hadoop发行版一起使用。
我使用NiFi构建了RSS查看器,使用GetHTTP-> TransformXML-> PutFile将RSS提取,提取并保存到磁盘。
NiFi然后列出浏览器请求,并使用HandleHttpRequest-> GetFile-> TransformXML-> HandleHttpResponse将RSS作为HTML表返回。
关于hadoop - 在大数据平台上从 'Near Real Time'中的新闻Web API提取数据的最佳方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44910649/