r - 在 R 中执行预测模型的时间

我有一个大约 20k 行和 160 列的数据集。经过一些简单的预处理(例如接近零方差和删除具有大量 NA 的变量)后，我只保留 56 列作为特征。现在，我想用随机森林方法对此数据执行训练模型。但大约一个小时后它没有回应，我放弃了它。

是否有任何代码可以根据我的电脑配置预测训练模型所需的时间？通常，在具有此维度的数据集上执行随机森林或 rpart 训练方法需要多少时间？

最佳答案

尝试为randomForest函数设置一些参数。从少量树 (ntree) 和/或每次分割时绘制的少量变量 (mtry) 开始，和/或少量“叶子”(maxnodes)。然后更改参数以提高模型的复杂性和准确性。当您从小处开始并慢慢增加参数以查看它们对性能的影响时，这也将有助于提高计算机的计算速度。

请注意，如果您使用randomForest进行特征选择(这就是我使用它的原因)，请使用大量的ntree，少量的 >mtry，以及少量的 maxnodes，以便您可以提取有关单变量的良好信息。

关于r - 在 R 中执行预测模型的时间，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49213476/

上一篇：machine-learning - Seq2Seq模型中Bucketing的概念

下一篇：azure - 如何绕过 ID 列而不在训练模型中使用但将其作为输出 - Azure ML

相关文章：

python - 如何在 pandas 数据框中设置第二个？

r - 将多个列值粘贴到 R 中的一个值中

python-3.x - 如何使用groupby计算vwap(成交量加权平均价格)？

php - 从给定时间减去一秒

machine-learning - 从自然语言文本中提取数据

r - 集群中最具代表性的实例

java - 根据用户的语言环境和偏好格式化日期和时间

r - 将行作为参数传递给 R dplyr mutate 中的函数

R 使用管道运算符时的条件评估 %>%

r - R中非常大的矩阵的SVD