scala - 更新 Spark DataFrame 中的一些行值

标签 scala apache-spark dataframe apache-spark-sql

我有一个数据框,我想将其合并到另一个数据框中,但只影响特定的单元格而不是整行。

旧数据框:

## +---+----+----+
## |key|val1|val2|
## +---+----+----+
## |  1|  aa|  ab|
## |  2|  bb|  bc|
## +---+----+----+

新数据框:

## +---+----+
## |key|val1|
## +---+----+
## |  2| bbb|
## +---+----+

结果:

## +---+----+----+
## |key|val1|val2|
## +---+----+----+
## |  1|  aa|  ab|
## |  2| bbb|  bc|
## +---+----+----+

在这种情况下,键是唯一的,因此受影响的行将始终是可识别的。旧数据帧也将始终包含新数据帧中的键。

由于数据帧是不可变的,我将不得不调用 withColumn 来创建一个新的数据帧,大概是通过传入某种 UDF,但是当涉及到该 UDF 时我有点迷茫应该包含。

最佳答案

您需要使用外部联接来获得预期的输出:

scala> val oldDf = Seq((1, "aa", "ab"), (2, "bb", "bc")).toDF("key", "val1", "val2").as("old")
// oldDf: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [key: int, val1: string ... 1 more field]
scala> val newDf = Seq((2, "bbb")).toDF("key", "val1").as("new")
// newDf: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [key: int, val1: string]

scala> oldDf.join(newDf, Seq("key"), "outer").select($"key", coalesce($"new.val1", $"old.val1").alias("val1"), $"val2").show
// +---+----+----+
// |key|val1|val2|
// +---+----+----+
// |  1|  aa|  ab| 
// |  2| bbb|  bc|
// +---+----+----+

注意 coalesce 将选择new.val1old.val1 之间的第一个非空值。

关于scala - 更新 Spark DataFrame 中的一些行值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39872844/

相关文章:

scala - Scala 中的无限流

java - 无法将 Spring Boot Java 应用程序提交到 Spark 集群

apache-spark - Spark任务在计算之前是否读取了整个HDFS block ?

apache-spark - 如何使用 Spark DataFrames 进行分层抽样?

java - 在 Scala 中,如何覆盖采用 java.util.Map 的方法

scala - 继承和自递归类型推断

scala - 如何从证书链、证书和私钥正确配置 HTTPS?阿卡 HTTP

python - 如何使用pandas使用zstandard压缩parquet文件

python - 如何创建一个数据透视表,该数据透视表在包含重复条目的列上建立索引,这些重复条目应按另一列的值进行分组?

python - 为每行值生成描述性统计数据并动态转置