machine-learning - 决策树连续属性

标签 machine-learning classification decision-tree

我正在使用决策树制作数据挖掘模型。如果我有像 MALE 和 FEMALE 这样的二进制属性,我知道在分割时我将有来自 Gender 节点的两个分支。但是,如果我有连续属性,即从 0 到 1 的 float ,该怎么办。我是否将其映射到离散值,例如 LOW (0 - 0.5) 和 HIGH (0.5 - 1)?或者还有其他方法吗?

最佳答案

为什么需要自己拆分呢?我不确定我理解是否正确。 然而,决策树的目的正是您手动所做的。

对于给定的特征F(我们以连续属性为例),其值在(a, b)范围内(可以是] -∞, +∞[ ),决策树会寻找最佳*值V来将节点分成两个独立的叶子。因此,如果属性 F(a, V) 内,则数据属于第一个叶子,如果在 (V, b) 内,则数据属于第二个叶子强>

什么最好*意味着

有多种方法可以找到值V,但一般来说,每个叶子的纯度(文献术语)是最大的,这意味着数据内部在某种程度上是同质的。 Wiki给出了一些常用的度量标准,用于将每个父叶分割为两个子叶。

关于machine-learning - 决策树连续属性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38267437/

相关文章:

python - scikit-learn 决策树是否支持无序的 ('enum' ) 多类特征?

machine-learning - 取消引用剪辑中匹配事实中的槽

machine-learning - 在线逻辑回归模型

machine-learning - 非典实现

r - 分类/决策树和选择分割

java - 决策树 : Recommended Libraries

python - 神经网络 MNIST

machine-learning - 为什么我的训练集在类分布数量方面也应该倾斜,仅仅因为我的测试集倾斜

twitter - 按性别对 Twitter 文本进行分类

machine-learning - 决策树回归背后的数学?