java - Apache Spark Streaming 中的非关联聚合

标签 java hadoop apache-spark spark-streaming

我正在尝试通过 apache spark streaming 在 Java 中构建一个实用层,用户可以在一段时间内聚合数据(在 spark 中使用窗口函数),但似乎所有可用的选项都需要关联函数(采用两个参数).然而,对于一些相当常见的用例,例如在一小时内平均温度传感器值等,spark API 似乎是不可能的。

有没有其他方法可以实现这种功能?我正在考虑实现重复的交互式查询来实现这一点,但它会太慢。

最佳答案

统计聚合(平均值、方差)实际上是关联的,可以在线计算。参见 here一个很好的数字方法来做到这一点。

就参数数量而言,请记住您放入参数的类型是您的选择。您可以使用元组在其中一个参数中嵌套多个参数。

最后,您还可以使用类似 updateStateByKey 的状态信息。 .

关于java - Apache Spark Streaming 中的非关联聚合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28115374/

相关文章:

hadoop - Hadoop中的reducer有什么好处?

java - Docker 和 Cloudera 快速入门 : How to run own jar-file?

python - Spark 集群上的 GridSearchCV - ImportError : No module named

hadoop - 在oozie中覆盖hadoop的mapreduce.fileoutputcommitter.marksuccessfuljobs

dataframe - pyspark中有没有一种方法可以计算唯一值

apache-spark - 组织.apache.spark.sql.AnalysisException : cannot resolve

java - Onejar和资源加载

java - 如何设置超时阈值以在java中等待/hibernate ?

java - 我有一个 "X"变量,其中包含数据(A、B、C、D)。变量 "Y"的值为 10

转换 EJB 时抛出 java.lang.ClassCastException : com. sun.proxy.$Proxy