scala - 如何在 Spark 中将数据帧设为 "dense"

我有一个数据框，如下所示:

item_id  week_id  sale amount
1           1         10
1           2         12
1           3         15
2           1         4
2           2         7
2           3         9

我想将此数据框转换为新的数据框，如下所示:

item_id   week_1     week_2     week_3
1          10          12         15
2          4            7          9

这可以在 R 中轻松完成，但我不知道如何使用 Spark API 和 Scala 来完成。

最佳答案

您可以使用groupBy.pivot，然后聚合sale_amount列，在这种情况下，您可以从项目和周的每个组合ID中获取第一个值(如果有)每个组合中不超过一行:

df.groupBy("item_id").pivot("week_id").agg(first("sale_amount")).show
+-------+---+---+---+
|item_id|  1|  2|  3|
+-------+---+---+---+
|      1| 10| 12| 15|
|      2|  4|  7|  9|
+-------+---+---+---+

如果 item_id 和 week_id 的每个组合都有不止一行，您可以使用其他聚合函数，例如 sum:

df.groupBy("item_id").pivot("week_id").agg(sum("sale_amount")).show
+-------+---+---+---+
|item_id|  1|  2|  3|
+-------+---+---+---+
|      1| 10| 12| 15|
|      2|  4|  7|  9|
+-------+---+---+---+

要获得正确的列名称，您可以在旋转之前转换 week_id 列:

import org.apache.spark.sql.functions._

(df.withColumn("week_id", concat(lit("week_"), df("week_id"))).
    groupBy("item_id").pivot("week_id").agg(first("sale_amount")).show)

+-------+------+------+------+
|item_id|week_1|week_2|week_3|
+-------+------+------+------+
|      1|    10|    12|    15|
|      2|     4|     7|     9|
+-------+------+------+------+

关于scala - 如何在 Spark 中将数据帧设为 "dense"，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41966602/

上一篇：audio - 使用 ffmpeg 从 28 分钟的视频中复制 5 秒

下一篇：browserify - 如何在 Jest 中测试使用 browserify-shim global 的文件？

相关文章：

python - pyspark 中的每月聚合

scala - 是否可以从 Tree 和 MethodSymbol 生成 Apply？

scala - 使用 Scala 将 org.apache.spark.mllib.linalg.Vector RDD 转换为 Spark 中的 DataFrame

postgresql - 在 play 框架 2 中使用异常在 postgresql 数据库中持久化对象

scala - SBT 无法通过 HTTPS 解决 AWS EC2 实例对第三方存储库的依赖关系

apache-spark - 使用 Spark Structured Streaming 从多个 Kafka 主题读取并写入不同接收器的最佳方法是什么？

python - 将日期列转换为时间戳列 + 小时的最有效方法

python - 有没有任何函数可以帮助我在 PySpark 中转换日期和字符串格式

apache-spark - Spark中未捕获的异常处理

mysql - sq.read.jdbc 和 sq.read.format ('jdbc' 之间有什么区别)？