r - 设置随机森林回归模型的 ntree 和 mtry 值

我正在使用 R 包randomForest 对一些生物数据进行回归。我的训练数据大小是 38772 X 201。

我只是想知道——树的数量ntree和每层变量的数量mtry的合适值是多少？有没有一个近似公式可以找到这些参数值？

我的输入数据中的每一行都是代表氨基酸序列的 200 个字符，我想构建一个回归模型以使用此类序列来预测蛋白质之间的距离。

最佳答案

mtry 的默认值非常合理，因此实际上没有必要对其进行修改。有一个函数tuneRF用于优化这个参数。但请注意，这可能会导致偏见。

Bootstrap 复制的数量没有优化。我经常从 ntree=501 开始，然后绘制随机森林对象。这将向您显示基于 OOB 误差的误差收敛。您需要足够的树来稳定误差，但又不能太多，以免过度关联整体，从而导致过度拟合。

这里需要注意的是:变量相互作用的稳定速度比误差慢，因此，如果您有大量自变量，则需要更多重复。我会将 ntree 保留为奇数，以便可以打破关系。

对于您问题的规模，我会开始ntree=1501。我还建议查看一种已发布的变量选择方法来减少自变量的数量。

关于r - 设置随机森林回归模型的 ntree 和 mtry 值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13956435/

相关文章：

r - 我可以在一列上使用 if_else 来改变其他几列吗？