machine-learning - 为什么基于树的模型不需要对名义数据进行one-hot编码？

我们通常会对名义数据进行one-hot编码，以便更合理地计算特征之间的距离或权重，但我经常听说基于树像随机森林或Boosting模型这样的模型不需要进行one-hot编码，但我在网上搜索过，但不知道，有人可以告诉我为什么或指导我一些 Material 来解决这个问题吗？

最佳答案

but I often heard that tree-based model like random forest or boosting model do not need do one-hot encoding

这不一定是真的，因为某些实现会对数值变量和分类变量应用不同的逻辑，因此最好针对您正在使用的库对分类变量进行适当的编码。

但是，有时对决策树模型使用数字编码可能没问题，因为它们只是寻找分割数据的位置，例如，它们不会将输入乘以权重。将此与将red=1, blue=2解释为蓝色两倍红色的神经网络进行对比，这显然不是您想要的。

关于machine-learning - 为什么基于树的模型不需要对名义数据进行one-hot编码？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45139834/