r - 如何更改 R 中随机森林的分割标准?

标签 r random-forest

我在 R 中使用 randomForest 包运行一个随机森林。

我有两个问题:

  1. 使用此包时,默认标准是基尼均值下降是否正确?

  2. 我使用 varImpPlot 绘制变量重要性,并获得两个重要性度量:Mean Decrease Accuracy 和 Mean Decrease Gini;我如何使用前者来实际拆分节点?

最佳答案

是的,计算分类树 split 的标准方法是减少基尼指数。另一种方法是使用基于熵的方法,但结果相似且公式中包含对数,因此通常速度较慢。

使用精度降低的拆分通常不会在包中实现(它不是在 R 的 randomForest 和 ranger 中,也不是在 python 上的 Sklearn 中),因为 id 不尊重一些基本属性作为损失函数并直接给出糟糕的结果。

您可以在此处找到一些详细信息 https://arxiv.org/pdf/1407.7502.pdf如果你愿意,大约在第 42-45 页

关于r - 如何更改 R 中随机森林的分割标准?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59172854/

相关文章:

r - 如何在R包传单中添加比例尺?

reshape 从宽到长,简单的 data.table 问题

在 R 中重采样横截面时间序列数据

r - 使代码和输出逐步出现在 R 演示文稿中

python - 如何使用 RandomizedSearchCV 正确实现 StratifiedKFold

python - 让 RandomForestClassifier 在训练期间确定选择一个变量

r - 在 R 中使用 Caret 包, "rf"的运行时间极长

r - R 中的类概率 randomForest

r - 如何使用 row.names 属性在 R 中对数据框的行进行排序?

r - ggplot2 忽略scale_color_manual() 中的颜色顺序