algorithm - 混合数值和标称数据的决策树算法

标签 algorithm machine-learning artificial-intelligence decision-tree id3

我的数据集包含许多数字和分类属性

示例:numericAttr1、numericAttr2、categoricalAttr1、numericalAttr3... 其中 categoricalAttr 值:categoricalAttrValue1、categoricalAttrValue2、categoricalAttrValue3。

我正在考虑将数值数据转换为分类数据(使用分箱算法)并应用 ID3 算法生成树,因为 ID3 仅处理离散数据。但是,如何处理过拟合?以及对数值数据进行分类并应用ID3算法是否正确?

最佳答案

如果过度拟合是一个问题,并且可以替换您的模型,我建议使用随机森林,因为它们对过度拟合非常免疫。

此外,您不必担心 binning 过程会导致过度拟合,因为它会对您拥有的数据进行泛化,如果有什么更有可能减少过度拟合的话。

关于algorithm - 混合数值和标称数据的决策树算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41688750/

相关文章:

java - 下面的代码问题解决方案在本地 IDE 中对我有用,但在 Hackerrank IDE 中以某种方式失败,我的代码是否有任何问题

algorithm - LibSVM 和 LibLinear 有什么区别

python - keras - 使用 lambda 层时如何避免尺寸错误

java - 我怎样才能影响 minimax 算法更喜欢立即奖励?

search - Find-S/候选消除算法的训练样例最少数量?

算法:如何将固定长度圆形数组中的新元素与现有元素尽可能远离?

python - 需要航类路线的算法建议

javascript - 关于嵌套,如何在两个大括号之间找到代码?

python - 如何重新训练现有的 K-Means 聚类模型

algorithm - 如何调整我的 Minimax 搜索树来处理没有基于术语的游戏?