我正在使用 Kafka Streams 的 TopologyTestDriver 来测试我们的数据管道。
它对我们所有的简单拓扑都非常有效,包括使用 Stores 的有状态拓扑。
我的问题是当我尝试使用此测试驱动程序来测试使用窗口聚合的拓扑时。
我复制了一个简单的示例,该示例对在 10 秒窗口内使用相同键接收到的整数求和。
public class TopologyWindowTests {
TopologyTestDriver testDriver;
String INPUT_TOPIC = "INPUT.TOPIC";
String OUTPUT_TOPIC = "OUTPUT.TOPIC";
@Before
public void setup(){
Properties config = new Properties();
config.put(StreamsConfig.APPLICATION_ID_CONFIG, "test");
config.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "dummy:1234");
// EventProcessor is a <String,String> processor
// so we set those serders
config.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
config.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.Integer().getClass());
testDriver = new TopologyTestDriver(defineTopology(),config,0L);
}
/**
* topology test
*/
@Test
public void testTopologyNoCorrelation() throws IOException {
ConsumerRecordFactory<String, Integer> factory = new ConsumerRecordFactory<>(INPUT_TOPIC, new StringSerializer(), new IntegerSerializer());
testDriver.pipeInput(factory.create(INPUT_TOPIC,"k",2,1L));
ProducerRecord<String, Integer> outputRecord = testDriver.readOutput(OUTPUT_TOPIC, new StringDeserializer(), new IntegerDeserializer());
Assert.assertNull(outputRecord);
}
@After
public void tearDown() {
testDriver.close();
}
/**
* Defines topology
* @return
*/
public Topology defineTopology(){
StreamsBuilder builder = new StreamsBuilder();
KStream<String,Integer> inputStream = builder.stream(INPUT_TOPIC);
KTable<Windowed<String>, Integer> groupedMetrics = inputStream.groupBy((key,value)->key,
Serialized.with(Serdes.String(),Serdes.Integer())).windowedBy(TimeWindows.of(TimeUnit.SECONDS.toMillis(10))).aggregate(
()-> 0,
(String aggKey, Integer newValue, Integer aggValue)->{
Integer val = aggValue+newValue;
return val;
},
Materialized.<String,Integer,WindowStore<Bytes,byte[]>>as("GROUPING.WINDOW").withKeySerde(Serdes.String()).withValueSerde(Serdes.Integer())
);
groupedMetrics.toStream().map((key,value)->KeyValue.pair(key.key(),value)).to(OUTPUT_TOPIC);
return builder.build();
}
}
我希望在这个测试用例中,除非我将挂钟时间提前 10 秒,否则输出主题不会返回任何内容......但我得到以下输出
java.lang.AssertionError: expected null, but was:<ProducerRecord(topic=OUTPUT.TOPIC, partition=null, headers=RecordHeaders(headers = [], isReadOnly = false), key=k, value=2, timestamp=0)>
我在这里错过了什么吗?
我正在使用 kafka 2.0.0
更新
提前致谢
根据 Matthias 的回应,我准备了以下测试:
@Test
public void testTopologyNoCorrelation() throws IOException {
ConsumerRecordFactory<String, Integer> factory = new ConsumerRecordFactory<>(INPUT_TOPIC, new StringSerializer(), new IntegerSerializer());
testDriver.pipeInput(factory.create(INPUT_TOPIC,"k",2,1L));
testDriver.pipeInput(factory.create(INPUT_TOPIC,"k",2,1L));
// Testing 2+2=4
ProducerRecord<String, Integer> outputRecord1 = testDriver.readOutput(OUTPUT_TOPIC, new StringDeserializer(), new IntegerDeserializer());
Assert.assertEquals(Integer.valueOf(4),outputRecord1.value());
// Testing no more events in the window
ProducerRecord<String, Integer> outputRecord2 = testDriver.readOutput(OUTPUT_TOPIC, new StringDeserializer(), new IntegerDeserializer());
Assert.assertNull(outputRecord2);
}
两条输入消息都使用相同的时间戳发送,因此我期望输出主题中只有一个事件与我的值之和。但是,我在输出中收到了 2 个事件(第一个事件的值为 2,第二个事件的值为 4),我认为这不是拓扑的理想行为。
最佳答案
默认情况下,Kafka Streams 在窗口操作的事件时间上运行,而不是挂钟时间。这保证了确定性处理语义(挂钟时间处理本质上是非确定性的)。查看文档以获取更多详细信息:https://docs.confluent.io/current/streams/concepts.html#time
因此,输入记录的时间戳决定了记录放置在哪个窗口中。此外,您的输入记录的时间戳会提前基于这些事件时间戳的内部跟踪“流时间”。
另请注意,Kafka Streams 遵循连续处理模型,并且确实发出更新而不是等待窗口结束条件。这对于处理迟到(又名乱序数据)很重要。比较 How to send final kafka-streams aggregation result of a time windowed KTable? 和 https://www.confluent.io/blog/watermarks-tables-event-time-dataflow-model/ 。
更新
这是因为“更新”处理模型。聚合时,每个输入记录都会更新“当前”结果,并生成“当前结果输出记录”。这对每条记录(不是每个时间戳)都会发生。
关于apache-kafka - 使用 Kafka Streams 测试窗口聚合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52643391/