web-services - Hadoop前面的服务

标签 web-services hadoop architecture oozie

我想在Hadoop之前公开一个Web服务,该服务用于将数据转发到Hadoop生态系统。我在Hadoop中有两个分支,速度较慢,可周期性地处理整个数据,速度较快,可对每个输入进行一些计算,并存储数据以进行定期工作。但是用户看不到较慢的分支,并且感觉只有快速的工作才能完成,而不知道运行在时间上聚合的数据上的较慢的工作。

如何最好地组织我的建筑?我是Hadoop架构的新手,我读过有关Oozie的内容,并感觉它可以在某种程度上帮助我。但是我不知道如何将服务与Hadoop连接,如何通过服务传递数据,因为Hadoop主要在文件上工作,并且是分布式系统。

数据应以流方式进入系统。应该有一个“实时”分支,该分支与进入系统的各个值一起使用,并且也将为定期批处理而累积这些值。

任何帮助将是巨大的,谢谢。

最佳答案

您可能需要研究hue。这提供了一组Web前端:用于HDFS(文件系统)的一个前端,您可以在其中上传文件;也有追踪工作的方法。

如果您打算将文件更定期和自动地放入HDFS中,请进一步阐述您的问题:最初的数据在哪里和什么(日志?db?一堆压缩过的csv-s?),什么会触发检索/

人们也可以使用API​​处理文件系统和跟踪作业。

至于oozie关心的问题,它更多是一种编排工具,可用于将相关作业组织到工作流中。

关于web-services - Hadoop前面的服务,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25633060/

相关文章:

mysql - 是否应该避免向更大的 MySQL 表中添加另一个字段?

c# - Entity Framework -与Oracle和SQL Server交互

java - WebService 未生成。/已生成

java - Jersey/JAX-RS 放置、删除幂等性 - 由程序员提供或完成

Java Base64 和 Android Base64

hadoop - 无法访问reduce类中的reduce方法

java - 每个查询的hadoop作业数

sql - 如何在配置单元中输出多个分组

windows - 如何在 Windows 上获取 cpu 缓存关联设置

java - 动态地将 JSON/XML 传递到 REST Web 服务