redis - 在 Redis 上写入的 Trident 或 Storm 拓扑

标签 redis apache-storm trident

我的拓扑有问题。我尝试解释工作流程... 我有一个每 2 分钟发出约 500k 元组的源,这些元组必须由 spout 读取并像单个对象一样精确处理一次(我认为是三叉戟中的一个批处理)。 之后, bolt /函数/还有什么?...必须附加时间戳并将元组保存到 Redis 中。

我尝试使用一个函数实现 Trident 拓扑结构,该函数使用一个 Jedis 对象(Java 的 Redis 库)将所有元组保存到 Redis 中,但是当我部署时,我在这个对象上收到一个 NotSerializable 异常。

我的问题是。我怎样才能实现一个在 Redis 上写入这批元组的函数?在网上阅读我找不到任何从函数写入 Redis 的示例或任何使用 Trident 中的 State 对象的示例(可能我必须使用它......)

我的简单拓扑:

TridentTopology topology = new TridentTopology();
topology.newStream("myStream", new mySpout()).each(new Fields("field1", "field2"), new myFunction("redis_ip", "6379"));

提前致谢

最佳答案

(回复一般状态,因为与 Redis 相关的特定问题似乎在其他评论中已解决)

当我们牢记 Storm 从分布式(或“分区”)数据源(通过 Storm“spouts”)读取、并行处理许多节点上的数据流、选择性地执行对这些数据流进行计算(称为“聚合”)并将结果保存到分布式数据存储(称为“状态”)。聚合是一个非常广泛的术语,仅表示“计算内容”:例如,在 Storm 中计算流上的最小值被视为先前已知的最小值与当前在集群的某个节点中处理的新值的聚合。

考虑到聚合和分区的概念,我们可以看一下 Storm 中允许在状态中保存内容的两个主要原语:partitionPersist 和 persistentAggregate,第一个在每个集群节点级别运行,没有与其他分区的协调,感觉有点像通过 DAO 与 DB 对话,而第二个分区涉及“重新分区”元组(即在集群中重新分配它们,通常沿着一些 groupby 逻辑),做一些计算(一个“聚合”)在读取/保存一些东西到数据库之前,感觉有点像与 HashMap 而不是 DB 交谈(在这种情况下,Storm 将 DB 称为“MapState”,或者如果数据库中只有一个键,则称为“快照” map )。

还有一件事要记住,Storm 的exactly once 语义不是通过只处理每个元组一次来实现的:这太脆弱了,因为每个元组可能有多个读/写操作在我们的拓扑中定义的元组,出于可伸缩性原因,我们希望避免两阶段提交,并且在大规模情况下,网络分区变得更有可能。相反,Storm 通常会继续重放这些元组,直到他确定它们已被完全成功地处理至少一次。这与状态更新的重要关系是 Storm 为我们提供了允许幂等状态更新的原语 (OpaqueMap),以便这些重放不会破坏以前存储的数据。例如,如果我们对数字 [1,2,3,4,5] 进行求和,即使由于某些原因在“求和”操作中多次重放和处理,保存在 DB 中的结果始终是 15 transient 故障。 OpaqueMap 对用于在数据库中保存数据的格式有轻微影响。请注意,只有当我们告诉 Storm 这样做时,这些重播和不透明逻辑才会出现,但我们通常会这样做。

如果您有兴趣阅读更多内容,我在此处发布了 2 篇关于该主题的博客文章。

http://svendvanderveken.wordpress.com/2013/07/30/scalable-real-time-state-update-with-storm/

http://svendvanderveken.wordpress.com/2014/02/05/error-handling-in-storm-trident-topologies/

最后一件事:正如上面的回放内容所暗示的,Storm 本质上是一种非常异步的机制:我们通常有一些数据生产者在队列系统(例如 Kafka 或 0MQ)中发布事件,Storm 从那里。因此,按照问题中的建议从 Storm 中分配时间戳可能会或可能不会产生预期的效果:此时间戳将反射(reflect)“最新成功处理时间”,而不是数据摄取时间,当然它不会完全相同在重播元组的情况下。

关于redis - 在 Redis 上写入的 Trident 或 Storm 拓扑,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21984201/

相关文章:

redis - 使用带有 Redis 的 Storm 作为数据源

java - 如何在 Intellij IDEA 中构建和运行 Storm Topology

hadoop - 将三元组放入HDFS时,Storm Trident拓扑缺少元组

kubernetes - Prometheus 和 nfs 存储

ruby-on-rails - 如何在 resque rails 中连接单独的 redis 实例

python - 如何获取 celery 经纪人和后端的状态?

node.js - 列表值的 redis Node 库 json 序列化

java - 将表从 Oracle 复制到 Redis

java - Apache Storm - Storm-starter 上的 ClassNotFoundException

tuples - 如何使用storm Trident对元组进行批处理?