我注意到有两个 LinearRegressionModel
SparkML 中的类,一个在 ML 包 ( spark.ml
) 中,另一个在 MLLib
中( spark.mllib
) 包。
这两者的实现方式完全不同 - 例如来自 MLLib
工具Serializable
,而另一个没有。
顺便说一句,关于RandomForestModel
ame 是真的.
为什么有两个类(class)?哪个是“正确”的?有没有办法将一个转换成另一个?
最佳答案
o.a.s.mllib
包含旧的基于 RDD 的 API 而 o.a.s.ml
包含围绕 Dataset
的新 API 构建和机器学习管道。 ml
和 mllib
在 2.0.0 和 mllib
中达到功能对等正在慢慢被弃用(这在线性回归的情况下已经发生了)并且很可能会在下一个主要版本中被删除。
因此,除非您的目标是向后兼容,否则“正确的选择”是 o.a.s.ml
.
关于apache-spark - Spark ML 和 MLLIB 包有什么区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38835829/