我们有一个用Python编写的预测服务来提供机器学习服务,你向它发送一组数据,它会给出异常检测或预测等。
我想使用Kafka流来处理实时数据。
有两种选择方式:
Kafka Streams作业仅完成
ETL
功能:加载数据,并进行简单的转换并将数据保存到Elastic Search。然后启动一个定时器,定期从ES加载数据,调用预测服务进行计算,并将结果保存回ES。Kafka 流作业完成了
ETL
之外的所有操作,当 Kafka 流作业完成ETL
后,将数据发送到预测服务,并保存计算结果到Kafka,消费者将结果从Kafka转发到ES。
我认为第二种方式更实时,但我不知道在流作业中做这么多预测任务是个好主意。
此类应用程序有任何常见模式或建议吗?
最佳答案
关于machine-learning - Kafka 流的最佳实践,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51923672/