r - 使用 Predict() 时,预测变量数相同但行数不同的新数据会出现错误

标签 r prediction random-forest gbm

我正在尝试运行在训练模型和交叉验证后获得的预测函数。我正在预测变量“classe”。

测试数据的预测变量名称数量与训练数据相同,但行数较少(20 个观测值)。测试数据中的所有预测变量都是数字(就像训练数据一样)。但无论我使用什么模型,它似乎都会引起问题。

型号:

rf <- train(train$classe ~., method="rf", data=train, 
        trControl = trainControl(method = "oob"))

我尝试过:

predict(rf, testing1)

我得到了

Error in predict.randomForest(modelFit, newdata) : newdata has 0 rows 

然后我尝试了

gbm <- train(train$classe ~., method="gbm", data=train, 
         trControl = trainControl(method = "cv", number=5))

predict(gbm, testing1)

我得到了

Error in aperm.default(psum, c(2, 1, 3)) : 
'perm' is of wrong length 3 (!= 2) 

我的测试数据如下所示,唯一的区别是最后一个变量表示“问题id”,而在训练集中最后一个变量表示“classe”:

> str(testing1)
'data.frame':   20 obs. of  86 variables:
 $ roll_belt              : num  123 1.02 0.87 125 1.35 -5.92 1.2 0.43 0.93 114 ...
 $ pitch_belt             : num  27 4.87 1.82 -41.6 3.33 1.59 4.44 4.15 6.72 22.4 ...
 $ total_accel_belt       : num  20 4 5 17 3 4 4 4 4 18 ...
 $ kurtosis_roll_belt     : num  NA NA NA NA NA NA NA NA NA NA ...
 $ kurtosis_picth_belt    : num  NA NA NA NA NA NA NA NA NA NA ...

 ... # all numeric variables 

 $ magnet_forearm_y       : num  419 791 698 783 -787 800 284 -619 652 723 ...
 $ magnet_forearm_z       : num  617 873 783 521 91 884 585 -32 469 512 ...
 $ problem_id             : num  1 2 3 4 5 6 7 8 9 10 ...

感谢任何帮助!!

最佳答案

我解决了这个问题 - 测试数据列中的一些值是“NA”,而在训练数据中它们是空白的。两个文件读入 R 的方式之间存在一些不一致。解决该问题后,predict() 现在可以工作了。

关于r - 使用 Predict() 时,预测变量数相同但行数不同的新数据会出现错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26553944/

相关文章:

prediction - 评估零膨胀负二项式模型的性能

python - 从连续变量Python创建多个类

r - 将回归模型拟合到多个自变量和因变量,并通过对变量进行分组来获得单独的拟合

r - 当只有某些列匹配时如何进行 rbind

python - 如何预测近期的物体位置?

R 随机森林的意外 NA 输出

java - 在 Java 中使用随机森林打印实际和预测的类标签

python - 如果我们使用 Scikit-Learn 库的 RandomForestRegressor 有多个输出,如何计算分割的杂质减少量

r - echarts4r 在四开中绘制低分辨率 Revealjs

r - 分配一个大矩阵