java - Apache Spark Streaming 中的非关联聚合

标签 java hadoop apache-spark spark-streaming

我正在尝试通过 apache spark streaming 在 Java 中构建一个实用层，用户可以在一段时间内聚合数据(在 spark 中使用窗口函数)，但似乎所有可用的选项都需要关联函数(采用两个参数).然而，对于一些相当常见的用例，例如在一小时内平均温度传感器值等，spark API 似乎是不可能的。

有没有其他方法可以实现这种功能？我正在考虑实现重复的交互式查询来实现这一点，但它会太慢。

最佳答案

统计聚合(平均值、方差)实际上是关联的，可以在线计算。参见 here一个很好的数字方法来做到这一点。

就参数数量而言，请记住您放入参数的类型是您的选择。您可以使用元组在其中一个参数中嵌套多个参数。

最后，您还可以使用类似 updateStateByKey 的状态信息。 .

关于java - Apache Spark Streaming 中的非关联聚合，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28115374/