r - 在使用公式用插入符号的 train() 训练的 randomForest 对象上使用 predict() 时出错

标签 r formula random-forest r-caret predict

在 64 位 Linux 机器上使用带有插入符号 6.0-41 和 randomForest 4.6-10 的 R 3.2.0。

尝试使用 predict()randomForest 上的方法用 train() 训练的对象来自 caret 的函数使用公式打包,函数返回错误。
通过 randomForest() 训练时和/或使用 x=y=而不是一个公式,它一切运行顺利。

这是一个工作示例:

library(randomForest)
library(caret)

data(imports85)
imp85     <- imports85[, c("stroke", "price", "fuelType", "numOfDoors")]
imp85     <- imp85[complete.cases(imp85), ]
imp85[]   <- lapply(imp85, function(x) if (is.factor(x)) x[,drop=TRUE] else x) ## Drop empty levels for factors.

modRf1  <- randomForest(numOfDoors~., data=imp85)
caretRf <- train( numOfDoors~., data=imp85, method = "rf" )
modRf2  <- caretRf$finalModel
modRf3  <- randomForest(x=imp85[,c("stroke", "price", "fuelType")], y=imp85[, "numOfDoors"])
caretRf <- train(x=imp85[,c("stroke", "price", "fuelType")], y=imp85[, "numOfDoors"], method = "rf")
modRf4  <- caretRf$finalModel

p1      <- predict(modRf1, newdata=imp85)
p2      <- predict(modRf2, newdata=imp85)
p3      <- predict(modRf3, newdata=imp85)
p4      <- predict(modRf4, newdata=imp85)

最后4行中,只有第二行p2 <- predict(modRf2, newdata=imp85)返回以下错误:
Error in predict.randomForest(modRf2, newdata = imp85) : 
variables in the training data missing in newdata

看来这个错误的原因是predict.randomForest方法使用 rownames(object$importance)确定用于训练随机森林的变量名称 object .而在看的时候
rownames(modRf1$importance)
rownames(modRf2$importance)
rownames(modRf3$importance)
rownames(modRf4$importance)

我们看:
[1] "stroke"   "price"    "fuelType"
[1] "stroke"   "price"    "fuelTypegas"
[1] "stroke"   "price"    "fuelType"
[1] "stroke"   "price"    "fuelType"

所以不知何故,当使用 carettrain()带有公式的函数更改 importance 中(因子)变量的名称领域randomForest目的。

真的是公式版和非公式版的插入符号不一致吗train()功能?或者我错过了什么?

最佳答案

一、几乎从不 使用 $finalModel预测的对象。使用 predict.train .这是原因的一个很好的例子。

某些函数(包括 randomForesttrain )处理虚拟变量的方式存在一些不一致。 R 中使用公式方法的大多数函数会将因子预测变量转换为虚拟变量,因为它们的模型需要数据的数值表示。异常(exception)情况是基于树和基于规则的模型(可以根据分类预测变量进行拆分)、朴素贝叶斯和其他一些模型。

所以randomForest使用 randomForest(y ~ ., data = dat) 时不会创建虚拟变量但是 train (和大多数其他人)将使用类似 train(y ~ ., data = dat) 的电话.

发生错误的原因是 fuelType是一个因素。 train 创建的虚拟变量不要有相同的名字,所以predict.randomForest找不到他们。

使用非公式方法与 train将因子预测变量传递给 randomForest一切都会好起来的。

TL; 博士

使用非公式方法与 train如果您想要相同的级别 使用 predict.train
最大限度

关于r - 在使用公式用插入符号的 train() 训练的 randomForest 对象上使用 predict() 时出错,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30097730/

相关文章:

c++ - 将对象的 X 坐标归一化为更小或更大的坐标

c++ - 二和不能被 K 整除的最大子集

machine-learning - kNN 中的特征选择和重要特征

random-forest - 错误 'RandomForestClassifier' 对象没有属性 'target_type_'

r - 使用 coord_fixed 进行多图布局

r - R中的多元非线性最小化

r - 保存输入 Shiny 的状态

javascript - 如何知道 highchart 列 r shiny plot 中点击栏的信息

java - 如何将JTextArea行数的值转换为Dimension height_JAVA

python - 从随机森林中获取树木