python - Pyspark错误: "Field rawPrediction does not exist" when using cross validation

标签 python apache-spark machine-learning pyspark apache-spark-ml

我一直在尝试对我的训练数据使用CrossValidator,但我总是收到错误消息:

"An error occurred while calling o80267.evaluate.
: java.lang.IllegalArgumentException: Field "rawPrediction" does not exist.
Available fields: label, features, CrossValidator_6a7bb791f63f_rand, features_scaled, prediction"

这是代码:

df = spark.createDataFrame(input_data, ["label", "features"])

train_data, test_data = df.randomSplit([.8,.2],seed=1234)
train_data.show()

standardScaler = StandardScaler(inputCol="features", outputCol="features_scaled")
lr = LinearRegression(maxIter=10)

pipeline = Pipeline(stages=[standardScaler, lr])

paramGrid = ParamGridBuilder()\
    .addGrid(lr.regParam, [0.3, 0.1, 0.01])\
    .addGrid(lr.fitIntercept, [False, True])\
    .addGrid(lr.elasticNetParam, [0.0, 0.5, 0.8, 1.0])\
    .build()


crossval = CrossValidator(estimator=pipeline,
                          estimatorParamMaps=paramGrid,
                          evaluator=BinaryClassificationEvaluator(),
                          numFolds=2)


cvModel = crossval.fit(train_data)

使用train_data.show()(在第三行中)时,输出如下:

    +-----+--------------------+
    |label|            features|
    +-----+--------------------+
    |4.526|[129.0,322.0,126....|
    |3.585|[1106.0,2401.0,11...|
    |3.521|[190.0,496.0,177....|
    |3.413|[235.0,558.0,219....|
    |3.422|[280.0,565.0,259....|
    |2.697|[213.0,413.0,193....|
    |2.992|[489.0,1094.0,514...|
    |2.414|[687.0,1157.0,647...|
    |2.267|[665.0,1206.0,595...|
    |2.611|[707.0,1551.0,714...|
    |2.815|[434.0,910.0,402....|
    |2.418|[752.0,1504.0,734...|
    |2.135|[474.0,1098.0,468...|
    |1.913|[191.0,345.0,174....|
    |1.592|[626.0,1212.0,620...|
    |  1.4|[283.0,697.0,264....|
    |1.525|[347.0,793.0,331....|
    |1.555|[293.0,648.0,303....|
    |1.587|[455.0,990.0,419....|
    |1.629|[298.0,690.0,275....|
    +-----+--------------------+

我已经搜索了rawPrediction,但至少我的理解是,此列仅在转换测试数据DF后添加。那么我在这里做错了什么以及为什么会收到此错误?我是否将某些列命名错误?我还将 scaled_features 重命名为 features,但这显然没有帮助。

最佳答案

您在回归问题中错误地使用了 BinaryClassificationEvaluator,并且由于 rawPrediction 仅用于分类模型,而不用于回归模型,因此您的评估器会查找列 rawPrediction,找不到它,并返回错误。

按如下方式更改交叉验证器:

from pyspark.ml.evaluation import RegressionEvaluator

crossval = CrossValidator(estimator=pipeline,
                          estimatorParamMaps=paramGrid,
                          evaluator=RegressionEvaluator(),
                          numFolds=2)

你应该没问题。

关于python - Pyspark错误: "Field rawPrediction does not exist" when using cross validation,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53450900/

相关文章:

python - 有人可以对 scikit learn 中的参数 var_smoothing 对 GaussianNB 的作用给出一个很好的数学/统计解释吗?

python - 机器学习 - 大数据集的问题

python - 松弛的 api 无效的身份验证错误

python - SymPy 无法求解重写积分

python - matplotlib:我可以用文本打断 `axhline` 吗?

python - z:net.snowflake.spark.snowflake.Utils.runQuery。 :java.lang.NullPointerException

csv - 自定义分隔符 csv 阅读器 Spark

java - 使用spark-cassandra-connector-java api并在尝试提交spark作业时出现错误

python - 抓取跨多个页面的数据时遇到问题

python - scikit-learn 中的sample_weight 与class_weight 相比如何?