r - 设置随机森林回归模型的 ntree 和 mtry 值

标签 r statistics machine-learning regression random-forest

我正在使用 R 包randomForest 对一些生物数据进行回归。我的训练数据大小是 38772 X 201

我只是想知道——树的数量ntree和每层变量的数量mtry的合适值是多少?有没有一个近似公式可以找到这些参数值?

我的输入数据中的每一行都是代表氨基酸序列的 200 个字符,我想构建一个回归模型以使用此类序列来预测蛋白质之间的距离。

最佳答案

mtry 的默认值非常合理,因此实际上没有必要对其进行修改。有一个函数tuneRF用于优化这个参数。但请注意,这可能会导致偏见。

Bootstrap 复制的数量没有优化。我经常从 ntree=501 开始,然后绘制随机森林对象。这将向您显示基于 OOB 误差的误差收敛。您需要足够的树来稳定误差,但又不能太多,以免过度关联整体,从而导致过度拟合。

这里需要注意的是:变量相互作用的稳定速度比误差慢,因此,如果您有大量自变量,则需要更多重复。我会将 ntree 保留为奇数,以便可以打破关系。

对于您问题的规模,我会开始ntree=1501。我还建议查看一种已发布的变量选择方法来减少自变量的数量。

关于r - 设置随机森林回归模型的 ntree 和 mtry 值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13956435/

相关文章:

r - 我可以在一列上使用 if_else 来改变其他几列吗?

string - R:引用数据框将列名作为变量返回,而不是字符串(对于子集)

r - nls - 收敛失败 : singular convergence (7)

python - 如何重现 Ridge(normalize=True) 的行为?

c++ - 我写了一个自定义咖啡层。但在训练期间它说 "**layer does not need backward computation"

java - 用于表示决策树归纳的数据结构

r - 按因子选择数据框中的第 n 个元素

r - facet_grid中的免费色标

sql-server - 设置 'auto create statistics' 导致通配符 TEXT 字段搜索挂起

python - 运行tensorflow程序出错