machine-learning - 是否有必要同时运行随机森林和交叉验证

标签 machine-learning classification random-forest

随机森林是一种稳健的算法。在随机森林中，它训练了几棵小树并具有 OOB 精度。但是，是否需要同时与随机森林进行交叉验证？

最佳答案

OOB 误差是随机森林误差的无偏估计，所以这很好。但是你使用交叉验证的目的是什么？如果您将 RF 与其他不以相同方式使用 bagging 的算法进行比较，您需要一种低方差的方法来比较它们。无论如何，您必须使用交叉验证来支持其他算法。然后对 RF 和其他算法使用交叉验证样本分割仍然是一个好主意，这样您就可以消除因分割选择而导致的方差。

如果您将一个 RF 与具有不同功能集的另一个 RF 进行比较，则比较 OOB 错误是合理的。如果您确保两个 RF 在训练期间使用相同的装袋集，则尤其如此。

关于machine-learning - 是否有必要同时运行随机森林和交叉验证，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15608721/

上一篇：matlab - 绘制两个多元高斯的决策边界

下一篇：solr - 自动产品分类和查询加权

相关文章：

machine-learning - 如何防止懒惰的卷积神经网络？

machine-learning - 比较模型之间的 AUC、对数损失和准确度分数

matlab - 如何从classregtree中查找使用过的特征

R mse计算中的randomForest包

r - R中运行randomForest期间详细模式的说明

apache-spark - 如何处理 Spark 最新随机森林中的分类特征？

machine-learning - 使用 Caffe 进行深度学习训练数据集

python - model.fit vs model.predict - sklearn 中的差异和用法

java - 如何在 java 中使用 StringToWordVector (weka)？

machine-learning - 有用的机器学习入门级资源