machine-learning - 在什么情况下可以使用 bagging 来代替 boosting?

标签 machine-learning data-science random-forest ensemble-learning boosting

我是数据科学的新手,到目前为止,我了解到装袋只会减少高方差,但提升会减少方差和偏差,从而提高训练和测试用例的准确性。

我了解两者的功能。似乎在准确性提升方面总是比装袋表现得更好。如果我错了,请纠正我。

是否有任何参数可以使 bagging 或基于 bagging 的算法比 boosting 更好 - 无论是在内存、速度、复杂数据处理还是任何其他参数方面。

最佳答案

bagging 有两个特性可以使其比 boosting 更有吸引力:

  1. 它是可并行的 - 由于 bagging 的 embarrassingly parallel 性质,您可以将训练过程加快 4-8 倍,具体取决于您的 CPU 核心。
  2. Bagging 对噪声 ( paper ) 的鲁棒性相对更强。现实生活中的数据很少像我们在学习数据科学时玩的玩具数据集那么干净。 Boosting 容易过度拟合噪声,而 Bagging 处理噪声的能力相对较好。

关于machine-learning - 在什么情况下可以使用 bagging 来代替 boosting?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57660093/

相关文章:

python - 要处理的推文列表

python - 使用 XGBoost 进行超参数网格搜索 - 评分函数与评估指标

Tensorflow:如何处理多个输入

r - 在 rsample 中结合滚动原点预测重采样和 Group V-Fold 交叉验证

machine-learning - 使用神经网络进行强化学习函数逼近

machine-learning - 标准化多元线性回归模型中的因变量

python - AttributeError: 'function' 对象没有属性 'ParseFromString'

基于 R 树的方法,如 randomForest、adaboost : interpret result of same data with different format

python - 在 scikit-learn 中使用 python 生成器

python - 是否有简单的方法来网格搜索而不在 python 中进行交叉验证?