apache-spark - Apache Storm 与 A​​pache Samza 与 Apache Spark

标签 apache-spark apache-storm apache-samza

关闭。这个问题需要更多focused .它目前不接受答案。












想改善这个问题吗?更新问题,使其仅关注一个问题 editing this post .

4年前关闭。




Improve this question




我曾在 Storm 和 Spark 上工作过,但 Samza 还很新。

我不明白为什么在 Storm 已经存在进行实时处理时引入 Samza。 Spark 在内存中提供近乎实时的处理,并具有其他非常有用的组件,如 graphx 和 mllib。

Samza 带来了哪些改进?还有哪些可能的改进?

最佳答案

This是对差异和优缺点的一个很好的总结。

我只想补充一点,实际上并不是那么新的 Samza 带来了一定的简单性,因为它坚持使用 Kafka 作为其后端,而其他人则试图以简单为代价变得更通用。 Samza 是由创建 Kafka 的同一个人开创的,他们也是 Kappa Architecture 背后的同一个人。 ——主要是以前在 LinkedIn 工作的 Jay Kreps。这很酷。

此外,Samza 的实时流、Spark Streaming 中的微批处理(与 Spark 不完全相同)以及 Storm 中带有元组的 spouts 和 bolts 之间的编程模型完全不同。

这些都不是“更好”。这完全取决于您的用例、团队的实力、API 如何与您的心智模型相匹配、支持质量等。

你也忘了Apache Flink和推特的 Heron ,这是他们制作的,因为 Storm 开始让他们失望。再说一次,很少有人需要以 Twitter 的规模运营。

关于apache-spark - Apache Storm 与 A​​pache Samza 与 Apache Spark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43101061/

相关文章:

scala - 为什么使用 Kafka 的 Spark Streaming 应用程序失败并显示 "ClassNotFoundException: org.apache.spark.streaming.kafka.KafkaRDDPartition"?

java - samza 容器失败

message-queue - 在 Kafka 中设计生产者和消费者的组件

java - Databricks Spark 笔记本在运行之间重复使用 Scala 对象?

scala - 使用 Scala 和 logback 配置 Apache Spark 日志记录

java - Spark 应用程序记录器

python - Streamparse不断调用next_tuple

cloud - 在 Storm 集群上运行多个拓扑的问题

java - ProcessSimulator.killAllProcesses(line:78)NoSuchMethodError ConcurrentHashMap.keySet()

hadoop - 如何在远程 Yarn 资源管理器上部署 samza 作业