machine-learning - Kafka 流的最佳实践

我们有一个用Python编写的预测服务来提供机器学习服务，你向它发送一组数据，它会给出异常检测或预测等。

我想使用Kafka流来处理实时数据。

有两种选择方式:

Kafka Streams作业仅完成ETL功能:加载数据，并进行简单的转换并将数据保存到Elastic Search。然后启动一个定时器，定期从ES加载数据，调用预测服务进行计算，并将结果保存回ES。
Kafka 流作业完成了 ETL 之外的所有操作，当 Kafka 流作业完成 ETL 后，将数据发送到预测服务，并保存计算结果到Kafka，消费者将结果从Kafka转发到ES。

我认为第二种方式更实时，但我不知道在流作业中做这么多预测任务是个好主意。

此类应用程序有任何常见模式或建议吗？

最佳答案

是的，我也会选择第二个选项。

您可以使用 Kafka 作为 ML 训练模块和预测模块之间的数据管道。这些模块可以在 Kafka Streams 中很好地实现。

看看下面的图: