我使用 Hadoop 构建了一个用于在分布式环境中搜索相似图像存储的应用程序。但是Hadoop不支持实时处理,所以响应时间长。我知道Storm是大数据分析应用的另一个框架。但是我很困惑我们是否可以使用 Storm 来实现这种应用程序。
有没有人能建议什么样的应用程序可以有效地使用 Storm 框架。
最佳答案
Storm is a very scalable, fast, fault-tolerant open source system for distributed computation, with a special focus on stream processing. Storm excels at event processing and incremental computation, calculating rolling metrics in real time over streams of data
事件流处理是 Storm 的主要优势。
通常 Hadoop 用于批处理。但是 Storm 是实时处理的 Hadoop 而 Spark 是分布式处理,所有内存数据存储
看看这个Storm and Spark和 Stack Comparison 链接
编辑:
我对这个问题的解决方案
1) 将图像存储在 CMS(内容管理系统)中,CDN 分布在多个网络中,而不是在 HDFS 或 NoSQL 数据库中)
2) 将Image Id, Image Name, MD5SUM, Image Location元信息存入HBase表
3) 使用 Spark 和 HBase 进行图像数据处理,例如通过检查 MD5SUM
删除重复图像关于hadoop - Storm框架应用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32990710/