apache-kafka - 共享 Kafka StateStore 最佳实践

标签 apache-kafka apache-kafka-streams

在创建处理器 API Topology 时，我注意到 Topology#addStateStore(StoreBuilder, String...) 接受多个处理器，这意味着一个状态存储可以由多个处理器共享。

此设计有任何注意事项吗？如果某个键不存在，而实际上某些其他处理器只是存储该键的值，则是否可能通过存储值来丢失数据？我想我是在问是否会出现常见的竞争条件问题。

如果处理器属于不同的子拓扑，会有什么不同吗？
此外，当附加到具有不同分区数量的源的处理器共享相同的状态存储时会发生什么？这将如何影响状态存储分片？

最佳答案

没有竞争条件。如果单个存储连接到多个处理器，则两个处理器都在单个线程中执行。

但是请注意，没有定义两个处理器访问存储的顺序，即，如果有单个输入记录，您不知道哪个处理器将首先执行。

Would it be any different if processors belong to different sub topologies?

这是不可能的。如果两个处理器访问同一个存储，它们将始终处于相同的子拓扑中。

Also, what happens when processors attached to sources with a different number of partitions share the same state store? How will this affect state store sharding?

一般来说，不建议这样做，因为您的输入数据不会被共同分区(即具有相同键的记录很可能位于两个主题的不同分区中)。该程序仍将使用较大的分区数来创建存储分片来执行。对于某些分片(对于较高的分区号)，相应的任务只会从一个主题读取数据，因为另一主题中没有相应的分区。

关于apache-kafka - 共享 Kafka StateStore 最佳实践，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62302561/

上一篇：graph - 在 gremlin 查询中显示子级别

下一篇：dataframe - Spark 中的 Dataframe 合并是否保持顺序？

相关文章：

scala - 如何在 Scala 中编写 Kafka Producer

java - 当偏移量存在时，如何消耗kafka frome的最大偏移量？

java - 重新启动 Kafka Streams 应用程序时出现 OutOfMemoryError

apache-kafka-streams - Kafka Streams 构建 StateStoreSupplier : API clarifications

apache-kafka - 卡夫卡流 : use the same `application.id` to consume from multiple topics

apache-kafka - 无效状态存储异常 : the state store is not open in Kafka streams

apache-kafka - Kafka Connect与接收器流

apache-kafka - 在不安装Confluent Platform的情况下使用Confluent Hub

docker - 许可证主题的 Kafka Connect 复制因子

java - 处理 Kafka 流中的异常