我有一个大约 20k 行和 160 列的数据集。经过一些简单的预处理(例如接近零方差和删除具有大量 NA 的变量)后,我只保留 56 列作为特征。现在,我想用随机森林方法对此数据执行训练模型。但大约一个小时后它没有回应,我放弃了它。
是否有任何代码可以根据我的电脑配置预测训练模型所需的时间? 通常,在具有此维度的数据集上执行随机森林或 rpart 训练方法需要多少时间?
最佳答案
尝试为randomForest
函数设置一些参数。从少量树 (ntree
) 和/或每次分割时绘制的少量变量 (mtry
) 开始,和/或少量“叶子”(maxnodes
)。然后更改参数以提高模型的复杂性和准确性。当您从小处开始并慢慢增加参数以查看它们对性能的影响时,这也将有助于提高计算机的计算速度。
请注意,如果您使用randomForest
进行特征选择(这就是我使用它的原因),请使用大量的ntree
,少量的 >mtry
,以及少量的 maxnodes
,以便您可以提取有关单变量的良好信息。
关于r - 在 R 中执行预测模型的时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49213476/