使用pyspark,我希望能够对spark数据框进行分组,对分组进行排序,然后提供行号。所以
Group Date
A 2000
A 2002
A 2007
B 1999
B 2015
会成为
Group Date row_num
A 2000 0
A 2002 1
A 2007 2
B 1999 0
B 2015 1
最佳答案
使用窗口功能:
from pyspark.sql.window import *
from pyspark.sql.functions import row_number
df.withColumn("row_num", row_number().over(Window.partitionBy("Group").orderBy("Date")))
关于apache-spark - PySpark-获取组中每一行的行号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45513959/