java - 如何在 Spark 2.4 中加载自定义变压器

标签 java scala apache-spark

我正在尝试在 Spark 2.4.0 中创建自定义转换器。保存起来效果很好。但是,当我尝试加载它时,出现以下错误:

java.lang.NoSuchMethodException: TestTransformer.<init>(java.lang.String)
  at java.lang.Class.getConstructor0(Class.java:3082)
  at java.lang.Class.getConstructor(Class.java:1825)
  at org.apache.spark.ml.util.DefaultParamsReader.load(ReadWrite.scala:496)
  at org.apache.spark.ml.util.MLReadable$class.load(ReadWrite.scala:380)
  at TestTransformer$.load(<console>:40)
  ... 31 elided

这对我来说表明它找不到我的变压器的构造函数,这对我来说没有任何意义。

MCVE:

import org.apache.spark.sql.{Dataset, DataFrame}
import org.apache.spark.sql.types.{StructType}
import org.apache.spark.ml.Transformer
import org.apache.spark.ml.param.ParamMap
import org.apache.spark.ml.util.{DefaultParamsReadable, DefaultParamsWritable, Identifiable}

class TestTransformer(override val uid: String) extends Transformer with DefaultParamsWritable{

    def this() = this(Identifiable.randomUID("TestTransformer"))

    override def transform(df: Dataset[_]): DataFrame = {
        val columns = df.columns
        df.select(columns.head, columns.tail: _*)
    }

    override def transformSchema(schema: StructType): StructType = {
        schema
    }

    override def copy(extra: ParamMap): TestTransformer = defaultCopy[TestTransformer](extra)
}

object TestTransformer extends DefaultParamsReadable[TestTransformer]{

    override def load(path: String): TestTransformer = super.load(path)

}

val transformer = new TestTransformer("test")

transformer.write.overwrite().save("test_transformer")
TestTransformer.load("test_transformer")

运行此程序(我使用的是 Jupyter 笔记本)会导致上述错误。我尝试将其编译为 .jar 文件并运行,没有任何区别。

令我困惑的是,等效的 PySpark 代码工作正常:

from pyspark.sql import SparkSession, DataFrame
from pyspark.ml import Transformer
from pyspark.ml.util import DefaultParamsReadable, DefaultParamsWritable

class TestTransformer(Transformer, DefaultParamsWritable, DefaultParamsReadable):

    def transform(self, df: DataFrame) -> DataFrame:
        return df

TestTransformer().save('test_transformer')
TestTransformer.load('test_transformer')

如何制作可保存和加载的自定义 Spark 转换器?

最佳答案

我可以在 Spark-Shell 中重现您的问题。

试图找到我调查的问题的根源DefaultParamsReadableDefaultParamsReader来源,我可以看到他们利用了 Java 反射。

https://github.com/apache/spark/blob/v2.4.0/mllib/src/main/scala/org/apache/spark/ml/util/ReadWrite.scala

第 495-496 行

val instance =
    cls.getConstructor(classOf[String]).newInstance(metadata.uid).asInstanceOf[Params]

我认为 scala REPL 和 Java 反射并不是好 friend 。

如果您运行此代码片段(在您的代码片段之后):

new TestTransformer().getClass.getConstructors

您将得到以下输出:

res1: Array[java.lang.reflect.Constructor[_]] = Array(public TestTransformer($iw), public TestTransformer($iw,java.lang.String))

这是真的! TestTransformer.<init>(java.lang.String)不存在。

我找到了 2 个解决方法,

  1. 使用 sbt 编译代码并创建一个 jar,然后使用 :require 包含在 Spark-Shell 中,为我工作(你提到你尝试过一个 jar ,但我不知道怎么做)

  2. 使用:paste -raw将代码粘贴到spark-shell中,也工作得很好。我想-raw防止 REPL 对你的类进行恶作剧。 请参阅:https://docs.scala-lang.org/overviews/repl/overview.html

我不确定如何使这些内容适应 Jupyter,但我希望这些信息对您有用。

注意:我实际上在spark 2.4.1中使用了spark-shell

关于java - 如何在 Spark 2.4 中加载自定义变压器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55741787/

相关文章:

parsing - Scala 解析器 - 消息长度

scala - 通过方法类型参数分配给类型成员的值打破了类型等价

java - 如何在Spark SQL中格式化整数?

Java,多部分 : Determine if multipart uploaded is a type of image

java - Spring @EnableSpringConfigured 不起作用

java - 变量应该仅对 xtext 中的当前函数可见

scala - 在 Scala 中以函数方式迭代表填充 2 个 HasSet

sql - 如何在不加载数据的情况下使用 Spark Scala 创建与 Oracle 的连接?

python - Pyspark 以周格式显示日期值以及周开始日期和结束日期

java - 为什么我会收到越界错误?