我有以下数据框:
df1
uid text frequency
1 a 1
1 b 0
1 c 2
2 a 0
2 b 0
2 c 1
我需要根据 uid 将其展平为:
df2
uid a b c
1 1 0 2
2 0 0 1
我在 R 中研究过类似的代码,但无法将其转换为 sql 或 scala。
关于如何解决这个问题有什么建议吗?
最佳答案
您可以按uid
分组,使用text
作为数据透视列并求和频率:
df1
.groupBy("uid")
.pivot("text")
.sum("frequency").show()
关于scala - 如何在 apache Spark 中展平数据框 |斯卡拉,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37341321/