python - pyspark中groupBy之后的列别名

标签 python scala apache-spark pyspark apache-spark-sql

我需要下一行中的结果数据框,以便在 groupBy 之后的 max('diff') 列具有别名“maxDiff”。但是,下面的行没有进行任何更改,也不会引发错误。

 grpdf = joined_df.groupBy(temp1.datestamp).max('diff').alias("maxDiff")

最佳答案

你可以使用agg代替调用max方法:

from pyspark.sql.functions import max

joined_df.groupBy(temp1.datestamp).agg(max("diff").alias("maxDiff"))

在 Scala 中也是如此

import org.apache.spark.sql.functions.max

joined_df.groupBy($"datestamp").agg(max("diff").alias("maxDiff"))

joined_df.groupBy($"datestamp").agg(max("diff").as("maxDiff"))

关于python - pyspark中groupBy之后的列别名,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33516490/

相关文章:

python - 将数据框的每隔 2 列着色为 excel?

python - 给定条件,修改数据框的值

python - 当值与另一列匹配时回填 Pandas 系列中的值

java - scala - 将 Mahout vector 转换为数组

apache-spark - Apache Spark 分区分布策略

java - 无法实例化 Kafka 结构化流 KafkaSourceProvider

python - 如何按 Pandas 中的子级别索引进行过滤

scala - Slick 3.0 通用 CRUD 实现中的类型参数绑定(bind)错误

multithreading - 如何在Scala中中断任务?

scala - 如何为 Scala 集合创建编码器(以实现自定义聚合器)?