apache-spark - 如何使用Window()计算PySpark中的滚动中位数?

标签 apache-spark pyspark apache-spark-sql pyspark-sql

如何计算前三个值的窗口大小的美元滚动中位数?

输入数据

dollars timestampGMT       
25      2017-03-18 11:27:18
17      2017-03-18 11:27:19
13      2017-03-18 11:27:20
27      2017-03-18 11:27:21
13      2017-03-18 11:27:22
43      2017-03-18 11:27:23
12      2017-03-18 11:27:24

预期输出数据

dollars timestampGMT          rolling_median_dollar
25      2017-03-18 11:27:18   median(25)
17      2017-03-18 11:27:19   median(17,25)
13      2017-03-18 11:27:20   median(13,17,25)
27      2017-03-18 11:27:21   median(27,13,17)
13      2017-03-18 11:27:22   median(13,27,13)
43      2017-03-18 11:27:23   median(43,13,27)
12      2017-03-18 11:27:24   median(12,43,13)

下面的代码可以移动平均值,但是PySpark没有F.median()。

pyspark: rolling average using timeseries data

编辑1:挑战是中位数()函数不会退出。我不能做

df = df.withColumn('rolling_average', F.median("dollars").over(w))

如果我想要移动平均线,我可以做

df = df.withColumn('rolling_average', F.avg("dollars").over(w))

编辑2:尝试使用roximateQuantile()

windfun = Window().partitionBy().orderBy(F.col(date_column)).rowsBetwe‌​en(-3, 0) sdf.withColumn("movingMedian", sdf.approxQuantile(col='a', probabilities=[0.5], relativeError=0.00001).over(windfun)) 

但是出现错误
AttributeError: 'list' object has no attribute 'over'

编辑3

请提供没有Udf的解决方案,因为它不会从催化剂优化中受益。

最佳答案

一种方法是收集$dollars列作为每个窗口的列表,然后使用udf计算所得列表的中位数:

from pyspark.sql.window import Window
from pyspark.sql.functions import *
import numpy as np 
from pyspark.sql.types import FloatType

w = (Window.orderBy(col("timestampGMT").cast('long')).rangeBetween(-2, 0))
median_udf = udf(lambda x: float(np.median(x)), FloatType())

df.withColumn("list", collect_list("dollars").over(w)) \
  .withColumn("rolling_median", median_udf("list")).show(truncate = False)

+-------+---------------------+------------+--------------+
|dollars|timestampGMT         |list        |rolling_median|
+-------+---------------------+------------+--------------+
|25     |2017-03-18 11:27:18.0|[25]        |25.0          |
|17     |2017-03-18 11:27:19.0|[25, 17]    |21.0          |
|13     |2017-03-18 11:27:20.0|[25, 17, 13]|17.0          |
|27     |2017-03-18 11:27:21.0|[17, 13, 27]|17.0          |
|13     |2017-03-18 11:27:22.0|[13, 27, 13]|13.0          |
|43     |2017-03-18 11:27:23.0|[27, 13, 43]|27.0          |
|12     |2017-03-18 11:27:24.0|[13, 43, 12]|13.0          |
+-------+---------------------+------------+--------------+

关于apache-spark - 如何使用Window()计算PySpark中的滚动中位数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46767807/

相关文章:

apache-spark - 在spark中保存固定大小的parquet输出文件

java - Spark 作业在 takeSample 上用完堆内存

Scala 错误找不到参数的隐式值

apache-spark - Spark Linear Regression With SGD 对特征缩放非常敏感

Scala和Spark UDF功能

apache-spark - 使用查找其他 Dataframe 中的值来进行 Spark Dataframe 列转换

scala - Spark 流计算平均值不起作用 : issue w/updateStateByKey and instantiating class

python - 根据某个键值 (pyspark) 从 RDD 创建多个 Spark DataFrame

apache-spark - PySpark 数据帧上的自定义聚合

hadoop - Spark RDD - 分区总是在 RAM 中吗?