我需要下一行中的结果数据框,以便在 groupBy 之后的 max('diff') 列具有别名“maxDiff”。但是,下面的行没有进行任何更改,也不会引发错误。
grpdf = joined_df.groupBy(temp1.datestamp).max('diff').alias("maxDiff")
最佳答案
你可以使用agg
代替调用max
方法:
from pyspark.sql.functions import max
joined_df.groupBy(temp1.datestamp).agg(max("diff").alias("maxDiff"))
在 Scala 中也是如此
import org.apache.spark.sql.functions.max
joined_df.groupBy($"datestamp").agg(max("diff").alias("maxDiff"))
或
joined_df.groupBy($"datestamp").agg(max("diff").as("maxDiff"))
关于python - pyspark中groupBy之后的列别名,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33516490/