r - 在 R 的 randomForest 包中，因子是否必须明确标记为因子？

标签 r statistics random-forest factors

还是包裹会意识到它们不是连续的并将它们视为因素？我知道，对于分类，被分类的特征确实需要是一个因素。但是预测功能呢？我已经在几个玩具数据集上运行了它，根据分类特征是数字还是因子，我得到的结果略有不同，但算法是随机的，所以我不知道我的结果的差异是否有意义。

谢谢!

最佳答案

是的，两者之间是有区别的。如果你想使用一个因子变量，你应该这样指定它，而不是把它作为一个数字。

对于分类数据(this 实际上是 CrossValidated 上的一个很好的答案):

A split on a factor with N levels is actually a selection of one of the (2^N)−2 possible combinations. So, the algorithm will check all the possible combinations and choose the one that produces the better split

对于数值数据(如 here 所示):

Numerical predictors are sorted then for every value Gini impurity or entropy is calculated and a threshold is chosen which gives the best split.

所以是的，将它添加为因子还是数字变量会有所不同。差异有多大取决于实际数据。

关于r - 在 R 的 randomForest 包中，因子是否必须明确标记为因子？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33219001/

上一篇：codefluent - 如何加载 PersistentList 类型的属性包含数组参数中的一个或多个值的实体？

下一篇：r - 在列表中的列表中的矩阵中查找向量的存在

相关文章：

php - 记录用户操作和页面浏览量的最有效方式是什么？

sql-server - 在 SQL Server 中获取代码行 (LOC) 总数的最简单方法是什么？

python - ScikitLearn 随机森林中的欠采样与 class_weight

r - 通过功能将子集参数传递给子集

r - 如何将数据添加到R数据框

r - ggalluvial - 对地层的顺序进行排序

python - 如何过滤一个 Numpy 数组，使每个 X 值只有一个 Y 值

r - 如何将 ntree 参数强加到 caret 包的 train() 函数中？

r - 使用检查的元素在 Shiny 的应用程序中训练机器学习算法

r - 在 R 中的 fill.contour 图中绘制一个框？