machine-learning - 决策树解释(泰坦尼克号数据)

标签 machine-learning decision-tree interpretation

我对决策树相当陌生，当我向下移动分支时，在解释它们时遇到了一些困难。我对 R 上绘制的图有一些疑问。响应变量是 Survived (Yes/No)，即根据年龄、票价、 sibling 数量和 parent 数量进行预测，我使用 Kaggle 的 Titanic 数据集在下面附加了一个决策树。

不同颜色的绿色/蓝色分别代表什么意思？
如何解释叶节点？
据我了解，最顶层的节点解释为 38% 幸存，62% 幸存无法生存，100%的人口都在这个桶里。如果我搬家向右...我如何解释 Bucket #3？如果我继续前进， 6 号桶？等等等等...

Titanic Decision Tree

最佳答案

1) 节点根据与节点对应的多数类来着色。多数类标签为 no(未幸存)的节点着色为绿色，否则为蓝色(yes 或幸存)。

2) 让我们解释一下底部最左边的叶节点。与该节点对应的数据点的 83% 具有类标签 no，17% 具有类标签 yes。该节点包含整个数据集中的 62% 数据点。

3) Bucket #3 可以类似地解释:与节点对应的数据点的 26% 具有类标签 no 和 74%有类标签 yes。该节点包含整个数据集中的 35% 数据点。如果计算节点#2和#3的no标签的加权比例，您将得到0.65*0.81+0.35*0.26=0.6175~0.62，这是根节点中包含标签no的数据比例。

关于machine-learning - 决策树解释(泰坦尼克号数据)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42144335/

上一篇：python - 从源目录导入 TensorFlow 是什么意思？

下一篇：c# - 如何在 Accord.NET 中使用随机森林处理回归

python - 值错误 : feature_names mismatch: in xgboost in the predict() function

machine-learning - 如何使用Rapidminer处理XML文件进行分类

artificial-intelligence - Quinlan的C4.5算法中如何计算数值属性的阈值？

haskell - 为什么 Haskell 中箭头函数的递归绑定(bind)会无限循环？

numpy - 如何生成每个类内符合正态分布的数据？

java - Apache Hama 适合构建决策树吗？

image-processing - 使用决策树

c - Magic Square代码帮助，想知道将数字向下移动到哪里用C编程

javascript - 为什么JS是解释型的而不是编译型的？