我想在Hadoop之前公开一个Web服务,该服务用于将数据转发到Hadoop生态系统。我在Hadoop中有两个分支,速度较慢,可周期性地处理整个数据,速度较快,可对每个输入进行一些计算,并存储数据以进行定期工作。但是用户看不到较慢的分支,并且感觉只有快速的工作才能完成,而不知道运行在时间上聚合的数据上的较慢的工作。
如何最好地组织我的建筑?我是Hadoop架构的新手,我读过有关Oozie的内容,并感觉它可以在某种程度上帮助我。但是我不知道如何将服务与Hadoop连接,如何通过服务传递数据,因为Hadoop主要在文件上工作,并且是分布式系统。
数据应以流方式进入系统。应该有一个“实时”分支,该分支与进入系统的各个值一起使用,并且也将为定期批处理而累积这些值。
任何帮助将是巨大的,谢谢。
最佳答案
您可能需要研究hue。这提供了一组Web前端:用于HDFS(文件系统)的一个前端,您可以在其中上传文件;也有追踪工作的方法。
如果您打算将文件更定期和自动地放入HDFS中,请进一步阐述您的问题:最初的数据在哪里和什么(日志?db?一堆压缩过的csv-s?),什么会触发检索/
人们也可以使用API处理文件系统和跟踪作业。
至于oozie关心的问题,它更多是一种编排工具,可用于将相关作业组织到工作流中。
关于web-services - Hadoop前面的服务,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25633060/