r - 在 R 的 randomForest 包中,因子是否必须明确标记为因子?

标签 r statistics random-forest factors

还是包裹会意识到它们不是连续的并将它们视为因素?我知道,对于分类,被分类的特征确实需要是一个因素。但是预测功能呢?我已经在几个玩具数据集上运行了它,根据分类特征是数字还是因子,我得到的结果略有不同,但算法是随机的,所以我不知道我的结果的差异是否有意义。

谢谢!

最佳答案

是的,两者之间是有区别的。如果你想使用一个因子变量,你应该这样指定它,而不是把它作为一个数字。

对于分类数据(this 实际上是 CrossValidated 上的一个很好的答案):

A split on a factor with N levels is actually a selection of one of the (2^N)−2 possible combinations. So, the algorithm will check all the possible combinations and choose the one that produces the better split



对于数值数据(如 here 所示):

Numerical predictors are sorted then for every value Gini impurity or entropy is calculated and a threshold is chosen which gives the best split.



所以是的,将它添加为因子还是数字变量会有所不同。差异有多大取决于实际数据。

关于r - 在 R 的 randomForest 包中,因子是否必须明确标记为因子?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33219001/

相关文章:

php - 记录用户操作和页面浏览量的最有效方式是什么?

sql-server - 在 SQL Server 中获取代码行 (LOC) 总数的最简单方法是什么?

python - ScikitLearn 随机森林中的欠采样与 class_weight

r - 通过功能将子集参数传递给子集

r - 如何将数据添加到R数据框

r - ggalluvial - 对地层的顺序进行排序

python - 如何过滤一个 Numpy 数组,使每个 X 值只有一个 Y 值

r - 如何将 ntree 参数强加到 caret 包的 train() 函数中?

r - 使用检查的元素在 Shiny 的应用程序中训练机器学习算法

r - 在 R 中的 fill.contour 图中绘制一个框?