scala - 从 FlinkML 多元线性回归中提取权重

标签 scala machine-learning linear-regression apache-flink flinkml

我正在运行 Flink 的多重线性回归示例 (0.10-SNAPSHOT)。我不知道如何提取权重(例如斜率和截距,beta0-beta1,无论你想怎么调用它们)。我对 Scala 不太熟悉,这可能是我问题的一半。

感谢任何人可以提供的任何帮助。

object Job {
 def main(args: Array[String]) {
    // set up the execution environment
    val env = ExecutionEnvironment.getExecutionEnvironment

    val survival = env.readCsvFile[(String, String, String, String)]("/home/danger/IdeaProjects/quickstart/docs/haberman.data")

    val survivalLV = survival
      .map{tuple =>
      val list = tuple.productIterator.toList
      val numList = list.map(_.asInstanceOf[String].toDouble)
      LabeledVector(numList(3), DenseVector(numList.take(3).toArray))
    }

    val mlr = MultipleLinearRegression()
      .setStepsize(1.0)
      .setIterations(100)
      .setConvergenceThreshold(0.001)

    mlr.fit(survivalLV) 
    println(mlr.toString())     // This doesn't do anything productive...
    println(mlr.weightsOption)  // Neither does this.

  }
}

最佳答案

问题是您只构建了用于计算权重的 Flink 作业(DAG),但尚未执行。触发执行的最简单方法是使用 collect 方法,该方法会将 DataSet 的结果检索回客户端。

mlr.fit(survivalLV)

val weights = mlr.weightsOption match {
  case Some(weights) => weights.collect()
  case None => throw new Exception("Could not calculate the weights.")
}

println(weights)

关于scala - 从 FlinkML 多元线性回归中提取权重,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33000456/

相关文章:

java - 在 Scala 中,如何覆盖采用 java.util.Map 的方法

python - 使用字符串替换打印时出现语法错误

machine-learning - 通过 Spark MLlib 回归估计数值

python - 线性回归模型预测功能不起作用

python - matplotlibplot_surface用于二维多元线性回归

scala - 如何在 Scala 中以声明方式创建列表?

scala - 如何展平spark rdd中的列表?

python - 深度自动编码器在 keras 中保持恒定的精度

python - 梯度下降多项式回归中权重爆炸

scala - Shapeless:使用 Record 批量更新