web-services - Hadoop前面的服务

我想在Hadoop之前公开一个Web服务，该服务用于将数据转发到Hadoop生态系统。我在Hadoop中有两个分支，速度较慢，可周期性地处理整个数据，速度较快，可对每个输入进行一些计算，并存储数据以进行定期工作。但是用户看不到较慢的分支，并且感觉只有快速的工作才能完成，而不知道运行在时间上聚合的数据上的较慢的工作。

如何最好地组织我的建筑？我是Hadoop架构的新手，我读过有关Oozie的内容，并感觉它可以在某种程度上帮助我。但是我不知道如何将服务与Hadoop连接，如何通过服务传递数据，因为Hadoop主要在文件上工作，并且是分布式系统。

数据应以流方式进入系统。应该有一个“实时”分支，该分支与进入系统的各个值一起使用，并且也将为定期批处理而累积这些值。

任何帮助将是巨大的，谢谢。

最佳答案

您可能需要研究hue。这提供了一组Web前端:用于HDFS(文件系统)的一个前端，您可以在其中上传文件；也有追踪工作的方法。

如果您打算将文件更定期和自动地放入HDFS中，请进一步阐述您的问题:最初的数据在哪里和什么(日志？db？一堆压缩过的csv-s？)，什么会触发检索/

人们也可以使用API处理文件系统和跟踪作业。

至于oozie关心的问题，它更多是一种编排工具，可用于将相关作业组织到工作流中。

关于web-services - Hadoop前面的服务，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25633060/

web-services - Hadoop前面的服务

上一篇：java - 正则表达式解析包含格式文本的多行条目的问题

下一篇：hadoop - 级联中的横向 View 功能