我在 R 中使用 randomForest 包运行一个随机森林。
我有两个问题:
使用此包时,默认标准是基尼均值下降是否正确?
我使用
varImpPlot
绘制变量重要性,并获得两个重要性度量:Mean Decrease Accuracy 和 Mean Decrease Gini;我如何使用前者来实际拆分节点?
最佳答案
是的,计算分类树 split 的标准方法是减少基尼指数。另一种方法是使用基于熵的方法,但结果相似且公式中包含对数,因此通常速度较慢。
使用精度降低的拆分通常不会在包中实现(它不是在 R 的 randomForest 和 ranger 中,也不是在 python 上的 Sklearn 中),因为 id 不尊重一些基本属性作为损失函数并直接给出糟糕的结果。
您可以在此处找到一些详细信息 https://arxiv.org/pdf/1407.7502.pdf如果你愿意,大约在第 42-45 页
关于r - 如何更改 R 中随机森林的分割标准?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59172854/