R:tuneRF 函数的行为不明确(randomForest 包)

标签 r optimization machine-learning data-mining random-forest

我对 tuneRFstepFactor 参数的含义感到不舒服函数,用于调整 randomForest 中进一步使用的 mtry 参数功能。

tuneRF 的文档说 stepFactor 是一个幅度, 所选的 mtry 被放气或膨胀。 显然,由于 mtry 是随机选择的多个变量,因此它必须是整数,但是我在网上看到很多使用 stepFactor=1.5 的示例。 起初我以为 R 默认使用 next mtry 等于 floor(mtry_current-stepFactor),但事实证明我错了。 此外,我不明白在 tuneRF 工作时显示 search left...search right... 的 R 命令。 我认为这是关于增加或减少 mtry 参数的信息,但我的假设结果并不正确。

总结一下这个冗长且不太优雅的对我的疑问的描述,我的问题是: 为什么 stepFactor 不是整数?

后续的mtry值是如何选择的? 向左/向右搜索实际上意味着什么?

任何帮助将非常感激! :)

最佳答案

以下是 tuneRF 工作原理的摘要:

  1. a。将 mtry 设置为 sqrt(p) 的默认值进行分类,将 p/3 设置为回归的默认值(其中 p) > = 变量总数)

    b.计算随机森林的袋外 (OOB) 错误(例如 error_default),并将 mtry 设置为上面找到的默认值

  2. a。向左看:设置mtry = 默认值/stepFactor。例如,如果 stepFactor=1.5 并且您的默认起始值​​为 8,mtry 将设置为 8/1.5=5.33,向上舍入为整数,即为 6

    b.计算 OOB 错误,例如 error_left

  3. a。查看右侧:设置mtry = 默认值*stepFactor。继续我的示例,mtry 将设置为 8*1.5=12

    b.计算 OOB 错误,例如 error_right

  4. 我。如果 (error_default < error_right) OR (error_default < error_left),则最好的mtry是默认值

    ii.如果不满足前面的条件,但errors_default和error_right/error_left之间的增量小于improve参数,则最好的mtry为默认值

    三.不失一般性,如果不满足条件,并且如果 error_right < error_left,并且 if (error_default-error_right) > improve,则将 mtry 设置为 mtry_right (12 )。从现在开始,永远走右边

  5. 如果 4.iii。已验证,迭代:将mtry设置为mtry_right*stepFactor(在我的示例中,12*1.5=18),计算OOB误差并将其与上一步获得的误差进行比较(在我的示例中) ,对于mtry=12)。如果新的误差较小,并且误差减少的增益足够(即>改进),则选择新的mtry并继续重复这些步骤,否则停止并返回当前mtry作为最佳mtry

您设置的stepFactor越小(例如1.1、1.2),您尝试的mtry值越多(精细搜索),您设置的stepFactor越大(例如2、2.5),越少您尝试的值(粗略搜索)。此外,如果 improve 值较低,搜索将持续更长时间。

关于R:tuneRF 函数的行为不明确(randomForest 包),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27211765/

相关文章:

linux - Linux 机器上的 R 错误消息

c++ - 如何在 C++ 中有效地生成多边形内部的随机 X 和 Y 值?

c - 有效评估 max(a,b) 内部循环 c.f.分支预测?

matlab - 如何提高SVM的性能?

matlab - 分类:处理弃权/拒绝类别

r - 将多列添加到我的 texreg 输出

用R中的部分文件名替换主题ID

c++ - 哪些库对 std::make_shared 使用了 "We Know Where You Live"优化?

python - 在 Python Logistic 回归中为求解器提供种子值

r - 如何防止用户使用 Shiny dateRangeInput 在开始日期之前设置结束日期