我对 PySpark 真的很陌生。我想要做的就是找到“日期”列的最大值并在数据框中添加一个新列,该列具有所有行(重复)的最大日期,以便:
A B C
a timestamp1 timestamp3
b timestamp2 --------------------> timestamp3
c timestamp3 timestamp3
我使用以下代码行:df.withColumn('dummy_column',f.lit((f.max('date'))).cast('timestamp')).show(9)
但我收到错误:> AnalysisException: grouping expressions sequence is empty, and
> '`part`' is not an aggregate function. Wrap '(CAST(max(`date`) AS
> TIMESTAMP) AS `new_column`)' in windowing function(s) or wrap '`part`'
> in first() (or first_value) if you don't care which value you get.;;
任何人都可以帮助我理解为什么会出现此错误以及如何解决它?
最佳答案
您可能正在寻找:
import pyspark.sql.functions as f
from pyspark.sql.window import Window
w = Window.rowsBetween(Window.unboundedPreceding, Window.unboundedFollowing)
df.withColumn('dummy_column',f.max('date').over(w).cast('timestamp')).show(9)
聚合函数,如 max
使用窗口或分组操作。它们不能单独工作,因为您没有指定聚合函数操作的行范围。
关于apache-spark - 尝试在 PySpark DataFrame 中创建具有最大时间戳的列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64709879/