在 64 位 Linux 机器上使用带有插入符号 6.0-41 和 randomForest 4.6-10 的 R 3.2.0。
尝试使用 predict()
时randomForest
上的方法用 train()
训练的对象来自 caret
的函数使用公式打包,函数返回错误。
通过 randomForest()
训练时和/或使用 x=
和 y=
而不是一个公式,它一切运行顺利。
这是一个工作示例:
library(randomForest)
library(caret)
data(imports85)
imp85 <- imports85[, c("stroke", "price", "fuelType", "numOfDoors")]
imp85 <- imp85[complete.cases(imp85), ]
imp85[] <- lapply(imp85, function(x) if (is.factor(x)) x[,drop=TRUE] else x) ## Drop empty levels for factors.
modRf1 <- randomForest(numOfDoors~., data=imp85)
caretRf <- train( numOfDoors~., data=imp85, method = "rf" )
modRf2 <- caretRf$finalModel
modRf3 <- randomForest(x=imp85[,c("stroke", "price", "fuelType")], y=imp85[, "numOfDoors"])
caretRf <- train(x=imp85[,c("stroke", "price", "fuelType")], y=imp85[, "numOfDoors"], method = "rf")
modRf4 <- caretRf$finalModel
p1 <- predict(modRf1, newdata=imp85)
p2 <- predict(modRf2, newdata=imp85)
p3 <- predict(modRf3, newdata=imp85)
p4 <- predict(modRf4, newdata=imp85)
最后4行中,只有第二行
p2 <- predict(modRf2, newdata=imp85)
返回以下错误:Error in predict.randomForest(modRf2, newdata = imp85) :
variables in the training data missing in newdata
看来这个错误的原因是
predict.randomForest
方法使用 rownames(object$importance)
确定用于训练随机森林的变量名称 object
.而在看的时候rownames(modRf1$importance)
rownames(modRf2$importance)
rownames(modRf3$importance)
rownames(modRf4$importance)
我们看:
[1] "stroke" "price" "fuelType"
[1] "stroke" "price" "fuelTypegas"
[1] "stroke" "price" "fuelType"
[1] "stroke" "price" "fuelType"
所以不知何故,当使用
caret
时train()
带有公式的函数更改 importance
中(因子)变量的名称领域randomForest
目的。真的是公式版和非公式版的插入符号不一致吗
train()
功能?或者我错过了什么?
最佳答案
一、几乎从不 使用 $finalModel
预测的对象。使用 predict.train
.这是原因的一个很好的例子。
某些函数(包括 randomForest
和 train
)处理虚拟变量的方式存在一些不一致。 R 中使用公式方法的大多数函数会将因子预测变量转换为虚拟变量,因为它们的模型需要数据的数值表示。异常(exception)情况是基于树和基于规则的模型(可以根据分类预测变量进行拆分)、朴素贝叶斯和其他一些模型。
所以randomForest
使用 randomForest(y ~ ., data = dat)
时不会创建虚拟变量但是 train
(和大多数其他人)将使用类似 train(y ~ ., data = dat)
的电话.
发生错误的原因是 fuelType
是一个因素。 train
创建的虚拟变量不要有相同的名字,所以predict.randomForest
找不到他们。
使用非公式方法与 train
将因子预测变量传递给 randomForest
一切都会好起来的。
TL; 博士
使用非公式方法与 train
如果您想要相同的级别 或 使用 predict.train
最大限度
关于r - 在使用公式用插入符号的 train() 训练的 randomForest 对象上使用 predict() 时出错,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30097730/