machine-learning - 决策树连续属性

标签 machine-learning classification decision-tree

我正在使用决策树制作数据挖掘模型。如果我有像 MALE 和 FEMALE 这样的二进制属性，我知道在分割时我将有来自 Gender 节点的两个分支。但是，如果我有连续属性，即从 0 到 1 的 float ，该怎么办。我是否将其映射到离散值，例如 LOW (0 - 0.5) 和 HIGH (0.5 - 1)？或者还有其他方法吗？

最佳答案

为什么需要自己拆分呢？我不确定我理解是否正确。然而，决策树的目的正是您手动所做的。

对于给定的特征F(我们以连续属性为例)，其值在(a, b)范围内(可以是] -∞, +∞[ )，决策树会寻找最佳*值V来将节点分成两个独立的叶子。因此，如果属性 F 在 (a, V) 内，则数据属于第一个叶子，如果在 (V, b) 内，则数据属于第二个叶子强>

什么最好*意味着？

有多种方法可以找到值V，但一般来说，每个叶子的纯度(文献术语)是最大的，这意味着数据内部在某种程度上是同质的。 Wiki给出了一些常用的度量标准，用于将每个父叶分割为两个子叶。

关于machine-learning - 决策树连续属性，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38267437/

上一篇：python - tensorflow 错误: Incompatible Shapes for Broadcasting

下一篇：machine-learning - 如何获取垃圾邮件-非垃圾邮件分类器中的突出词？

machine-learning - 取消引用剪辑中匹配事实中的槽

machine-learning - 在线逻辑回归模型

machine-learning - 非典实现

r - 分类/决策树和选择分割

java - 决策树 : Recommended Libraries

python - 神经网络 MNIST

machine-learning - 为什么我的训练集在类分布数量方面也应该倾斜，仅仅因为我的测试集倾斜

twitter - 按性别对 Twitter 文本进行分类

machine-learning - 决策树回归背后的数学？