hadoop - 在大数据平台上从 'Near Real Time'中的新闻Web API提取数据的最佳方法

标签 hadoop bigdata apache-nifi

我有一个用例,第一步是将新闻API或新闻聚合器API的数据提取到HDFS中。此数据提取应在NRT的基础上完成(例如每15分钟一次)
目前,我正在研究2种方法:

  • 基于Python的解决方案。(目前,它不是通用代码)。
  • 基于Apache NiFi的框架。(但NiFi似乎与Hortonworks以外的其他发行版存在一些兼容性问题)

  • 希望有更多建议,这是一种与平台无关的方法,可以在不同的Hadoop发行版(Cloudera,HW等)上使用。

    谢谢。

    最佳答案

    Apache NiFi绝对可以处理您的过程,并且可以在Windows,MacOS和大多数Linux发行版上很好地运行(我已经在Ubuntu,Redhat,CentOS,Amazon Linux和Raspbian上运行了它)。它不需要Hadoop,但可以与Hortonworks或Cloudera Hadoop发行版一起使用。

    我使用NiFi构建了RSS查看器,使用GetHTTP-> TransformXML-> PutFile将RSS提取,提取并保存到磁盘。
    NiFi然后列出浏览器请求,并使用HandleHttpRequest-> GetFile-> TransformXML-> HandleHttpResponse将RSS作为HTML表返回。

    关于hadoop - 在大数据平台上从 'Near Real Time'中的新闻Web API提取数据的最佳方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44910649/

    相关文章:

    hadoop - yarn application id 是如何生成的

    java - SemanticException [错误 10014] 配置单元 UDF

    unit-testing - 单元测试大数据的方法

    apache-nifi - Apache Nifi - 使用 Kafka + 合并内容 + 放置 HDFS 以避免小文件

    hdfs - Nifi List 来自多个路径的文件并将它们路由到各自的目的地

    hadoop - 如何使用Flume将数据实时写入HDFS?

    hadoop - 让多个 reducer 在 HDFS 中创建多个输出文件

    java - MapReduce Hadoop作业总体进展

    java - pig 错误 : Could not find or load main class org. apache.pig.Main

    regex - nifi route文本处理器使用问题