python - pyspark中groupBy之后的列别名

我需要下一行中的结果数据框，以便在 groupBy 之后的 max('diff') 列具有别名“maxDiff”。但是，下面的行没有进行任何更改，也不会引发错误。

 grpdf = joined_df.groupBy(temp1.datestamp).max('diff').alias("maxDiff")

最佳答案

你可以使用agg代替调用max方法:

from pyspark.sql.functions import max

joined_df.groupBy(temp1.datestamp).agg(max("diff").alias("maxDiff"))

在 Scala 中也是如此

import org.apache.spark.sql.functions.max

joined_df.groupBy($"datestamp").agg(max("diff").alias("maxDiff"))

或

joined_df.groupBy($"datestamp").agg(max("diff").as("maxDiff"))

关于python - pyspark中groupBy之后的列别名，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33516490/

相关文章：

python - 将数据框的每隔 2 列着色为 excel？