hadoop - Storm框架应用

标签 hadoop apache-spark apache-storm spark-streaming apache-samza

我使用 Hadoop 构建了一个用于在分布式环境中搜索相似图像存储的应用程序。但是Hadoop不支持实时处理,所以响应时间长。我知道Storm是大数据分析应用的另一个框架。但是我很困惑我们是否可以使用 Storm 来实现这种应用程序。

有没有人能建议什么样的应用程序可以有效地使用 Storm 框架。

最佳答案

Storm is a very scalable, fast, fault-tolerant open source system for distributed computation, with a special focus on stream processing. Storm excels at event processing and incremental computation, calculating rolling metrics in real time over streams of data

事件流处理是 Storm 的主要优势。

通常 Hadoop 用于批处理。但是 Storm 是实时处理的 Hadoop 而 Spark 是分布式处理,所有内存数据存储

看看这个Storm and SparkStack Comparison 链接

enter image description here

编辑:

我对这个问题的解决方案

1) 将图像存储在 CMS(内容管理系统)中,CDN 分布在多个网络中,而不是在 HDFSNoSQL 数据库中)

2) 将Image Id, Image Name, MD5SUM, Image Location元信息存入HBase表

3) 使用 Spark 和 HBase 进行图像数据处理,例如通过检查 MD5SUM

删除重复图像

关于hadoop - Storm框架应用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32990710/

相关文章:

hadoop - Hadoop Mapreduce 可以实现什么?

java - 带有 Parquet 文件的 Hive 中的内存问题

apache-spark - 谷歌分析与 Spark

hadoop - Storm spout NullPointerException - 异步循环终止

distributed-computing - Storm 如何管理集群模式下的共享数据?

hadoop - Mapside Join 和 Reduce side join 可以有不同的 O/P

hadoop - 有没有办法在 Hive 中转置数据

apache-spark - Spark 分区如何对 HDFS 中的文件进行操作?

java - 示例 Java 程序中的 Spark UDF 反序列化错误

java - Eclipse 中的 Storm 集群关闭