r - 在使用公式用插入符号的 train() 训练的 randomForest 对象上使用 predict() 时出错

在 64 位 Linux 机器上使用带有插入符号 6.0-41 和 randomForest 4.6-10 的 R 3.2.0。

尝试使用 predict() 时randomForest 上的方法用 train() 训练的对象来自 caret 的函数使用公式打包，函数返回错误。
通过 randomForest() 训练时和/或使用 x=和 y=而不是一个公式，它一切运行顺利。

这是一个工作示例:

library(randomForest)
library(caret)

data(imports85)
imp85     <- imports85[, c("stroke", "price", "fuelType", "numOfDoors")]
imp85     <- imp85[complete.cases(imp85), ]
imp85[]   <- lapply(imp85, function(x) if (is.factor(x)) x[,drop=TRUE] else x) ## Drop empty levels for factors.

modRf1  <- randomForest(numOfDoors~., data=imp85)
caretRf <- train( numOfDoors~., data=imp85, method = "rf" )
modRf2  <- caretRf$finalModel
modRf3  <- randomForest(x=imp85[,c("stroke", "price", "fuelType")], y=imp85[, "numOfDoors"])
caretRf <- train(x=imp85[,c("stroke", "price", "fuelType")], y=imp85[, "numOfDoors"], method = "rf")
modRf4  <- caretRf$finalModel

p1      <- predict(modRf1, newdata=imp85)
p2      <- predict(modRf2, newdata=imp85)
p3      <- predict(modRf3, newdata=imp85)
p4      <- predict(modRf4, newdata=imp85)

最后4行中，只有第二行p2 <- predict(modRf2, newdata=imp85)返回以下错误:

Error in predict.randomForest(modRf2, newdata = imp85) : 
variables in the training data missing in newdata

看来这个错误的原因是predict.randomForest方法使用 rownames(object$importance)确定用于训练随机森林的变量名称 object .而在看的时候

rownames(modRf1$importance)
rownames(modRf2$importance)
rownames(modRf3$importance)
rownames(modRf4$importance)

我们看:

[1] "stroke"   "price"    "fuelType"
[1] "stroke"   "price"    "fuelTypegas"
[1] "stroke"   "price"    "fuelType"
[1] "stroke"   "price"    "fuelType"

所以不知何故，当使用 caret 时train()带有公式的函数更改 importance 中(因子)变量的名称领域randomForest目的。

真的是公式版和非公式版的插入符号不一致吗train()功能？或者我错过了什么？

最佳答案

一、几乎从不 使用 $finalModel预测的对象。使用 predict.train .这是原因的一个很好的例子。

某些函数(包括 randomForest 和 train )处理虚拟变量的方式存在一些不一致。 R 中使用公式方法的大多数函数会将因子预测变量转换为虚拟变量，因为它们的模型需要数据的数值表示。异常(exception)情况是基于树和基于规则的模型(可以根据分类预测变量进行拆分)、朴素贝叶斯和其他一些模型。

所以randomForest使用 randomForest(y ~ ., data = dat) 时不会创建虚拟变量但是 train (和大多数其他人)将使用类似 train(y ~ ., data = dat) 的电话.

发生错误的原因是 fuelType是一个因素。 train 创建的虚拟变量不要有相同的名字，所以predict.randomForest找不到他们。

使用非公式方法与 train将因子预测变量传递给 randomForest一切都会好起来的。

TL; 博士

使用非公式方法与 train如果您想要相同的级别或使用 predict.train
最大限度

关于r - 在使用公式用插入符号的 train() 训练的 randomForest 对象上使用 predict() 时出错，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30097730/

r - 在使用公式用插入符号的 train() 训练的 randomForest 对象上使用 predict() 时出错

上一篇：Xcode 7 beta 3 在启动时崩溃

下一篇：maven - 使用来自 maven 的 JavaFX11 构建可执行 JAR