我正在尝试通过 apache spark streaming 在 Java 中构建一个实用层,用户可以在一段时间内聚合数据(在 spark 中使用窗口函数),但似乎所有可用的选项都需要关联函数(采用两个参数).然而,对于一些相当常见的用例,例如在一小时内平均温度传感器值等,spark API 似乎是不可能的。
有没有其他方法可以实现这种功能?我正在考虑实现重复的交互式查询来实现这一点,但它会太慢。
最佳答案
统计聚合(平均值、方差)实际上是关联的,可以在线计算。参见 here一个很好的数字方法来做到这一点。
就参数数量而言,请记住您放入参数的类型是您的选择。您可以使用元组在其中一个参数中嵌套多个参数。
最后,您还可以使用类似 updateStateByKey 的状态信息。 .
关于java - Apache Spark Streaming 中的非关联聚合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28115374/