python - PySpark:具有多个功能的多列上的 Groupby

我正在使用 Spark 2.0 运行 PySpark 来聚合数据。下面是 Spark 中收到的原始数据帧 (df)。

DeviceID    TimeStamp           IL1    IL2    IL3    VL1    VL2    VL3
1001        2019-07-14 00:45    2.1    3.1   2.25    235    258    122
1002        2019-07-14 01:15    3.2    2.4   4.25    240    250    192
1003        2019-07-14 01:30    3.2    2.0   3.85    245    215    192
1003        2019-07-14 01:30    3.9    2.8   4.25    240    250    192

现在我想通过 DeviceID 应用 groupby 逻辑。 StackOverflow 中有几篇文章。特别是This和 this链接是感兴趣的点。在这些帖子的帮助下，我创建了以下脚本

from pyspark.sql import functions as F
groupby = ["DeviceID"]
agg_cv = ["IL1","IL2","IL3","VL1","VL2","VL3"]
func = [min,max]
expr_cv = [F.f(F.col(c)) for f in func for c in agg_cv]
df_final = df_cv_filt.groupby(*groupby).agg(*expr_cv)

上面的代码显示错误为

Columns are not iterable

无法理解为什么会出现这样的错误。当我使用以下代码时

from pyspark.sql.functions import min, max, col
expr_cv = [f(col(c)) for f in func for c in agg_cv]

那么上面的代码就可以正常运行了。

我的问题是:如何修复上述错误。

最佳答案

尝试使用

func = [F.min,F.max]
agg_cv = ["IL1","IL2","IL3","VL1","VL2","VL3"]
expr_cv = [f(F.col(c)) for f in func for c in agg_cv]
df_final = df1.groupby(*groupby).agg(*expr_cv)

这应该有效。

+--------+---------+--------+--------+--------+--------+--------+---------+--------+--------+--------+--------+--------+
|DeviceID|min( IL1)|min(IL2)|min(IL3)|min(VL1)|min(VL2)|min(VL3)|max( IL1)|max(IL2)|max(IL3)|max(VL1)|max(VL2)|max(VL3)|
+--------+---------+--------+--------+--------+--------+--------+---------+--------+--------+--------+--------+--------+
|    1003|      3.2|     2.0|    3.85|     240|     215|     192|      3.9|     2.8|    4.25|     245|     250|     192|
|    1002|      3.2|     2.4|    4.25|     240|     250|     192|      3.2|     2.4|    4.25|     240|     250|     192|
|    1001|      2.1|     3.1|    2.25|     235|     258|     122|      2.1|     3.1|    2.25|     235|     258|     122|
+--------+---------+--------+--------+--------+--------+--------+---------+--------+--------+--------+--------+--------+```

关于python - PySpark:具有多个功能的多列上的 Groupby，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57053789/

python - PySpark:具有多个功能的多列上的 Groupby

上一篇：google-apps-script - 如何使用 Google-apps-script 从延迟加载的网页(通过 API)抓取数据？

下一篇：python - 如何修复 "django-admin not recognized"