r - 如何调整R中Bagging的参数?

标签 r performance machine-learning

我想知道当我们使用Bagging进行分类时,可以调整哪些参数以及是否可以使用交叉验证来调整它?

Bagging function in R ,它说我们可以使用 nbagg 来更改引导复制的数量。并使用rpart.control .

这是我的代码 装袋(收入~.,data=training3,coob=T)

最佳答案

何时在分类中使用 bagging?

装袋本质上是从单个训练集中重复采样,以生成 x 个不同的引导训练数据集。然后,我们在这些训练集上训练我们的方法,并在回归的情况下对所有预测进行平均,在分类的情况下我们使用投票。装袋有助于减少结果的方差,因此,如果结果的方差非常大,您通常会选择装袋,但随机森林和提升技术通常优于装袋技术。

哪些参数可以调整,我们可以使用交叉验证来调整它吗?

nbagg: nbagg参数用于控制决策树投票的数量 在整体中(默认值为 25)。根据学习任务的难度和训练数据量,增加这个数字可能会提高模型的性能,但需要额外的 计算费用。

cp: cp 是复杂性参数,正确调整后会给出修剪树,复杂性参数 (cp) 用于控制决策树的大小并选择最佳树大小。如果从当前节点向决策树添加另一个变量的成本高于 cp 的值,则树构建不会继续,您可以点击并尝试绘制它,看看什么适合您。

我们可以使用交叉验证吗?

是的,你可以,但是你应该使用插入符包来做到这一点(只是为了让你的生活变得简单)

library(caret)
set.seed(1729)
cntrl <- trainControl(method = "cv", number = 10)
train(dependent_variable ~ ., data = mydata, method = "treebag",
        trControl = cntrl)

关于r - 如何调整R中Bagging的参数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47725938/

相关文章:

Tensorflow 成本等于无

r - 在 R 中动态对齐图(空间图的自定义 ggplot2 图例)

javascript - Node.js 上的性能重算法

r - 为什么在套索回归中计算 MSE 会给出不同的输出?

performance - Jmeter中的多个VU-只有一个用户能够插入数据

php - 回显内容有时需要很长时间

machine-learning - Keras:批处理未完成

r - R Commander 中 S_Dbw 输出中的 "Inf"是什么意思?

r - 更改 ggplot 中的调色板

r - 矩阵的给定值,得到它的坐标