apache-spark - Apache Storm 与 Apache Samza 与 Apache Spark

标签 apache-spark apache-storm apache-samza

关闭。这个问题需要更多focused .它目前不接受答案。

想改善这个问题吗？更新问题，使其仅关注一个问题 editing this post .

4年前关闭。

Improve this question

我曾在 Storm 和 Spark 上工作过，但 Samza 还很新。

我不明白为什么在 Storm 已经存在进行实时处理时引入 Samza。 Spark 在内存中提供近乎实时的处理，并具有其他非常有用的组件，如 graphx 和 mllib。

Samza 带来了哪些改进？还有哪些可能的改进？

最佳答案

This是对差异和优缺点的一个很好的总结。

我只想补充一点，实际上并不是那么新的 Samza 带来了一定的简单性，因为它坚持使用 Kafka 作为其后端，而其他人则试图以简单为代价变得更通用。 Samza 是由创建 Kafka 的同一个人开创的，他们也是 Kappa Architecture 背后的同一个人。 ——主要是以前在 LinkedIn 工作的 Jay Kreps。这很酷。

此外，Samza 的实时流、Spark Streaming 中的微批处理(与 Spark 不完全相同)以及 Storm 中带有元组的 spouts 和 bolts 之间的编程模型完全不同。

这些都不是“更好”。这完全取决于您的用例、团队的实力、API 如何与您的心智模型相匹配、支持质量等。

你也忘了Apache Flink和推特的 Heron ，这是他们制作的，因为 Storm 开始让他们失望。再说一次，很少有人需要以 Twitter 的规模运营。

关于apache-spark - Apache Storm 与 Apache Samza 与 Apache Spark，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43101061/

上一篇：security - 收集信用卡信息 - 不收取付款

下一篇：objective-c - 从 nsdata objective-c iOS 获取浮点值

java - samza 容器失败

message-queue - 在 Kafka 中设计生产者和消费者的组件

java - Databricks Spark 笔记本在运行之间重复使用 Scala 对象？

scala - 使用 Scala 和 logback 配置 Apache Spark 日志记录

java - Spark 应用程序记录器

python - Streamparse不断调用next_tuple

cloud - 在 Storm 集群上运行多个拓扑的问题

java - ProcessSimulator.killAllProcesses(line:78)NoSuchMethodError ConcurrentHashMap.keySet()

hadoop - 如何在远程 Yarn 资源管理器上部署 samza 作业

apache-spark - Apache Storm 与 A​​pache Samza 与 Apache Spark

上一篇：security - 收集信用卡信息 - 不收取付款

下一篇：objective-c - 从 nsdata objective-c iOS 获取浮点值

apache-spark - Apache Storm 与 Apache Samza 与 Apache Spark