r - 在 R 中执行预测模型的时间

标签 r machine-learning time

我有一个大约 20k 行和 160 列的数据集。经过一些简单的预处理(例如接近零方差和删除具有大量 NA 的变量)后,我只保留 56 列作为特征。现在,我想用随机森林方法对此数据执行训练模型。但大约一个小时后它没有回应,我放弃了它。

是否有任何代码可以根据我的电脑配置预测训练模型所需的时间? 通常,在具有此维度的数据集上执行随机森林或 rpart 训练方法需要多少时间?

最佳答案

尝试为randomForest函数设置一些参数。从少量树 (ntree) 和/或每次分割时绘制的少量变量 (mtry) 开始,和/或少量“叶子”(maxnodes)。然后更改参数以提高模型的复杂性和准确性。当您从小处开始并慢慢增加参数以查看它们对性能的影响时,这也将有助于提高计算机的计算速度。

请注意,如果您使用randomForest进行特征选择(这就是我使用它的原因),请使用大量的ntree,少量的 >mtry,以及少量的 maxnodes,以便您可以提取有关单变量的良好信息。

关于r - 在 R 中执行预测模型的时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49213476/

相关文章:

python - 如何在 pandas 数据框中设置第二个?

r - 将多个列值粘贴到 R 中的一个值中

python-3.x - 如何使用groupby计算vwap(成交量加权平均价格)?

php - 从给定时间减去一秒

machine-learning - 从自然语言文本中提取数据

r - 集群中最具代表性的实例

java - 根据用户的语言环境和偏好格式化日期和时间

r - 将行作为参数传递给 R dplyr mutate 中的函数

R 使用管道运算符时的条件评估 %>%

r - R中非常大的矩阵的SVD