apache-spark - Spark ML 和 MLLIB 包有什么区别

标签 apache-spark apache-spark-mllib apache-spark-ml

我注意到有两个 LinearRegressionModel SparkML 中的类,一个在 ML 包 ( spark.ml ) 中,另一个在 MLLib 中( spark.mllib ) 包。
这两者的实现方式完全不同 - 例如来自 MLLib工具Serializable ,而另一个没有。
顺便说一句,关于RandomForestModel ame 是真的.
为什么有两个类(class)?哪个是“正确”的?有没有办法将一个转换成另一个?

最佳答案

o.a.s.mllib包含旧的基于 RDD 的 API 而 o.a.s.ml包含围绕 Dataset 的新 API 构建和机器学习管道。 mlmllib在 2.0.0 和 mllib 中达到功能对等正在慢慢被弃用(这在线性回归的情况下已经发生了)并且很可能会在下一个主要版本中被删除。

因此,除非您的目标是向后兼容,否则“正确的选择”是 o.a.s.ml .

关于apache-spark - Spark ML 和 MLLIB 包有什么区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38835829/

相关文章:

apache-spark - 如何在 Apache Spark 中评估隐式反馈 ALS 算法的推荐?

apache-spark - pyspark : NameError: name 'spark' is not defined

apache-spark - 如何使用 CrossValidator 获得精确度/召回率,以使用 Spark 训练 NaiveBayes 模型

hadoop - 如何通过 Spark 打开/流式传输 .zip 文件?

apache-spark - Spark : How to kill running process without exiting shell?

hadoop - 处理存储在 Redshift 中的数据

scala - 使用空/空字段值创建新的数据框

apache-spark - Spark 将结构数组转换为 Vector 以获得欧氏距离

scala - 添加两个 RDD[mllib.linalg.Vector]

apache-spark - Spark.ml LogisticRegression 是否仅假设数值特征?