scala - Spark UDF 不适用于 Double 字段中的空值

我正在尝试编写一个 spark UDF，用 0.0 替换 Double 字段的空值。我正在使用数据集 API。这是UDF:

val coalesceToZero=udf((rate: Double) =>  if(Option(rate).isDefined) rate else 0.0)

这是基于我测试可以正常工作的以下功能:

def cz(value: Double): Double = if(Option(value).isDefined) value else 0.0

cz(null.asInstanceOf[Double])
cz: (value: Double)Double
res15: Double = 0.0

但是当我以下列方式在 Spark 中使用它时，UDF 不起作用。

myDS.filter($"rate".isNull)
    .select($"rate", coalesceToZero($"rate")).show

+----+---------+
|rate|UDF(rate)|
+----+---------+
|null|     null|
|null|     null|
|null|     null|
|null|     null|
|null|     null|
|null|     null|
+----+---------+

但是，以下工作:

val coalesceToZero=udf((rate: Any) =>  if(rate == null) 0.0 else rate.asInstanceOf[Double])

所以我想知道 Spark 是否有一些特殊的方式来处理 null Double 值。

最佳答案

scala.Double不能是 null和您使用的功能，似乎只是因为:

scala> null.asInstanceOf[Double]
res2: Double = 0.0

(您可以在 If an Int can't be null, what does null.asInstanceOf[Int] mean? 中找到描述此行为的极好答案)。

如 myDS是静态类型的数据集，正确的方法是使用 Option[Double] :

case class MyCaseClass(rate: Option[Double])

或 java.lang.Double :

case class MyCaseClass(rate: java.lang.Double)

这些中的任何一个都可以让您处理 nulls使用静态类型的 API(不是 SQL/DataFrame)，从性能角度来看，后一种表示是有利的。

一般来说，我建议填写 NULLs使用 SQL API:

import org.apache.spark.sql.functions.{coalesce, lit}

myDS.withColumn("rate", coalesce($"rate", lit(0.0)))

或 DataFrameNaFunctions.fill :

df.na.fill(0.0, Seq("rate"))

转换前 Dataset[Row]至 Dataset[MyCaseClass] .

关于scala - Spark UDF 不适用于 Double 字段中的空值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45285253/

scala - Spark UDF 不适用于 Double 字段中的空值

上一篇：perl - 使用 Moose 的 before 更改方法参数与隐私冲突

下一篇：scala - 为什么来自柯里化(Currying)函数的函数定义在 scala 中不起作用？