我对决策树
相当陌生,当我向下移动分支时,在解释它们时遇到了一些困难。我对 R 上绘制的图有一些疑问。响应变量是 Survived
(Yes
/No
),即根据年龄、票价、 sibling 数量和 parent 数量进行预测,我使用 Kaggle 的 Titanic
数据集在下面附加了一个决策树。
- 不同颜色的绿色/蓝色分别代表什么意思?
- 如何解释叶节点?
- 据我了解,最顶层的节点解释为 38% 幸存,62% 幸存 无法生存,100%的人口都在这个桶里。如果我搬家 向右...我如何解释 Bucket #3?如果我继续前进, 6 号桶?等等等等...
最佳答案
1) 节点根据与节点对应的多数类来着色。多数类标签为 no
(未幸存)的节点着色为绿色,否则为蓝色(yes
或幸存)。
2) 让我们解释一下底部最左边的叶节点。与该节点对应的数据点的 83%
具有类标签 no
,17%
具有类标签 yes
。该节点包含整个数据集中的 62%
数据点。
3) Bucket #3 可以类似地解释:与节点对应的数据点的 26%
具有类标签 no
和 74%
有类标签 yes
。该节点包含整个数据集中的 35%
数据点。如果计算节点#2和#3的no
标签的加权比例,您将得到0.65*0.81+0.35*0.26=0.6175~0.62
,这是根节点中包含标签no
的数据比例。
关于machine-learning - 决策树解释(泰坦尼克号数据),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42144335/