scala - 我有一个以 Map 作为列数据类型的表,如何将其分解以生成 2 列,一列用于映射,一列用于键?

标签 scala apache-spark dataframe apache-spark-sql

Hive Table: (Name_Age: Map[String, Int] and ID: Int)
+---------------------------------------------------------++------+
|                  Name_Age                               ||  ID  | 
+---------------------------------------------------------++------+
|"SUBHAJIT SEN":28,"BINOY MONDAL":26,"SHANTANU DUTTA":35  ||  15  |
|"GOBINATHAN SP":35,"HARSH GUPTA":27,"RAHUL ANAND":26     ||  16  |
+---------------------------------------------------------++------+

我已将 Name_Age 列分解为多行:

def toUpper(name: Seq[String]) =  (name.map(a => a.toUpperCase)).toSeq

sqlContext.udf.register("toUpper",toUpper _)

var df = sqlContext.sql("SELECT toUpper(name) FROM namelist").toDF("Name_Age")

df.explode(df("Name_Age")){case org.apache.spark.sql.Row(arr: Seq[String]) => arr.toSeq.map(v => Tuple1(v))}.drop(df("Name_Age")).withColumnRenamed("_1","Name_Age")
+-------------------+
|     Name_Age      |
+-------------------+
|  [SUBHAJIT SEN,28]|
|  [BINOY MONDAL,26]|
|[SHANTANU DUTTA,35]|
| [GOBINATHAN SP,35]|
|   [HARSH GUPTA,27]|
|   [RAHUL ANAND,26]|
+-------------------+

但我想分解并创建 2 行:姓名和年龄

+-------------------+-------+
|       Name        |  Age  |
+-------------------+-------+
|  SUBHAJIT SEN     |  28   |
|  BINOY MONDAL     |  26   | 
|SHANTANU DUTTA     |  35   |
| GOBINATHAN SP     |  35   |
|   HARSH GUPTA     |  27   |
|   RAHUL ANAND     |  26   |
+-------------------+-------+

有人可以帮忙修改爆炸代码吗?

最佳答案

您所需要的只是删除 toUpper 调用 explode 函数:

import org.apache.spark.sql.functions.explode

val df = Seq((Map("foo" -> 1, "bar" -> 2), 1)).toDF("name_age", "id")
val exploded = df.select($"id", explode($"name_age")).toDF("id", "name", "age")
exploded.printSchema

// root
//  |-- id: integer (nullable = false)
//  |-- name: string (nullable = false)
//  |-- age: integer (nullable = false)

之后您可以使用内置函数转换为大写:

import org.apache.spark.sql.functions.upper

exploded.withColumn("name", upper($"name"))

关于scala - 我有一个以 Map 作为列数据类型的表,如何将其分解以生成 2 列,一列用于映射,一列用于键?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36649326/

相关文章:

python - 如何用 pandas 将数据帧向前填充四次

java - 使用 MongoDB/Morphia(Scala 或 Java)将 LatLon 类存储为 GeoJSON

scala - "Flattening"Scala 和 Haskell 中的列表

scala - 如果在 Slick 3.0.0 中不存在则插入以进行批量插入

hadoop - 无法使用 spark API 写入 MySQL - pickle.PicklingError : Could not serialize object

python - 发送一封电子邮件,其中包含 DataFrames 作为电子邮件正文中的表格

python - 取多个值用Python Pandas制作表格

scala - 映射到相同类型的 Traversable 的 Traversable 类型

python - 如何在 Spark 中使用 Dataframes 的相关性?

scala - 我需要将配置单元表架构与包含csv文件架构的数据框进行比较