我对 tuneRF
的 stepFactor
参数的含义感到不舒服函数,用于调整 randomForest
中进一步使用的 mtry
参数功能。
tuneRF
的文档说 stepFactor
是一个幅度,
所选的 mtry 被放气或膨胀。
显然,由于 mtry
是随机选择的多个变量,因此它必须是整数,但是我在网上看到很多使用 stepFactor=1.5
的示例。
起初我以为 R 默认使用 next mtry
等于 floor(mtry_current-stepFactor)
,但事实证明我错了。
此外,我不明白在 tuneRF
工作时显示 search left...search right...
的 R 命令。
我认为这是关于增加或减少 mtry
参数的信息,但我的假设结果并不正确。
总结一下这个冗长且不太优雅的对我的疑问的描述,我的问题是:
为什么 stepFactor
不是整数?
后续的mtry
值是如何选择的?
向左/向右搜索实际上意味着什么?
任何帮助将非常感激! :)
最佳答案
以下是 tuneRF
工作原理的摘要:
a。将 mtry 设置为 sqrt(p) 的默认值进行分类,将 p/3 设置为回归的默认值(其中 p) > = 变量总数)
b.计算随机森林的袋外 (OOB) 错误(例如 error_default),并将 mtry 设置为上面找到的默认值
a。向左看:设置mtry = 默认值/stepFactor。例如,如果 stepFactor=1.5 并且您的默认起始值为 8,mtry 将设置为 8/1.5=5.33,向上舍入为整数,即为 6
b.计算 OOB 错误,例如 error_left
a。查看右侧:设置mtry = 默认值*stepFactor。继续我的示例,mtry 将设置为 8*1.5=12
b.计算 OOB 错误,例如 error_right
我。如果 (error_default < error_right) OR (error_default < error_left),则最好的mtry是默认值
ii.如果不满足前面的条件,但errors_default和error_right/error_left之间的增量小于improve参数,则最好的mtry为默认值三.不失一般性,如果不满足条件,并且如果 error_right < error_left,并且 if (error_default-error_right) > improve,则将 mtry 设置为 mtry_right (12 )。从现在开始,永远走右边
如果 4.iii。已验证,迭代:将mtry设置为mtry_right*stepFactor(在我的示例中,12*1.5=18),计算OOB误差并将其与上一步获得的误差进行比较(在我的示例中) ,对于mtry=12)。如果新的误差较小,并且误差减少的增益足够(即>改进),则选择新的mtry并继续重复这些步骤,否则停止并返回当前mtry作为最佳mtry
您设置的stepFactor越小(例如1.1、1.2),您尝试的mtry值越多(精细搜索),您设置的stepFactor越大(例如2、2.5),越少您尝试的值(粗略搜索)。此外,如果 improve 值较低,搜索将持续更长时间。
关于R:tuneRF 函数的行为不明确(randomForest 包),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27211765/