machine-learning - 为什么基于树的模型不需要对名义数据进行one-hot编码?

标签 machine-learning model random-forest one-hot-encoding boosting

我们通常会对名义数据进行one-hot编码,以便更合理地计算特征之间的距离权重,但我经常听说基于树像随机森林或Boosting模型这样的模型不需要进行one-hot编码,但我在网上搜索过,但不知道,有人可以告诉我为什么或指导我一些 Material 来解决这个问题吗?

最佳答案

but I often heard that tree-based model like random forest or boosting model do not need do one-hot encoding

这不一定是真的,因为某些实现会对数值变量和分类变量应用不同的逻辑,因此最好针对您正在使用的库对分类变量进行适当的编码。

但是,有时对决策树模型使用数字编码可能没问题,因为它们只是寻找分割数据的位置,例如,它们不会将输入乘以权重。将此与将red=1, blue=2解释为蓝色两倍红色的神经网络进行对比,这显然不是您想要的。

关于machine-learning - 为什么基于树的模型不需要对名义数据进行one-hot编码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45139834/

相关文章:

php - Laravel Eloquent : Update A Model And its Relationships

data-mining - Weka 中的回归树森林

R编程,通过插入符的随机森林

machine-learning - 如何处理机器学习分类问题的小型且不平衡的数据集

machine-learning - 在DBSCAN中,如何确定边界点?

c# - MVC 5 未正确验证 StringLength 属性

r - 带有 doSMP 和 foreach 的并行随机森林大大增加了内存使用量(在 Windows 上)

apache-spark - Spark LDA 不支持 logLikelihood 和 logPerplexity 方法,如何测量它们?

opencv - opencv 中的 Haarcascades

java - 如何在 Java 中加载 Weka 模型?