machine-learning - 决策树解释(泰坦尼克号数据)

标签 machine-learning decision-tree interpretation

我对决策树相当陌生,当我向下移动分支时,在解释它们时遇到了一些困难。我对 R 上绘制的图有一些疑问。响应变量是 Survived (Yes/No),即根据年龄、票价、 sibling 数量和 parent 数量进行预测,我使用 Kaggle 的 Titanic 数据集在下面附加了一个决策树。

  1. 不同颜色的绿色/蓝色分别代表什么意思?
  2. 如何解释叶节点?
  3. 据我了解,最顶层的节点解释为 38% 幸存,62% 幸存 无法生存,100%的人口都在这个桶里。如果我搬家 向右...我如何解释 Bucket #3?如果我继续前进, 6 号桶?等等等等...

Titanic Decision Tree

最佳答案

1) 节点根据与节点对应的多数类来着色。多数类标签为 no(未幸存)的节点着色为绿色,否则为蓝色(yes 或幸存)。

2) 让我们解释一下底部最左边的叶节点。与该节点对应的数据点的 83% 具有类标签 no17% 具有类标签 yes。该节点包含整个数据集中的 62% 数据点。

3) Bucket #3 可以类似地解释:与节点对应的数据点的 26% 具有类标签 no74%有类标签 yes。该节点包含整个数据集中的 35% 数据点。如果计算节点#2和#3的no标签的加权比例,您将得到0.65*0.81+0.35*0.26=0.6175~0.62,这是根节点中包含标签no的数据比例。

关于machine-learning - 决策树解释(泰坦尼克号数据),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42144335/

相关文章:

python-3.x - 使用之前训练好的模型在catboost中进行进一步预测

python - 值错误 : feature_names mismatch: in xgboost in the predict() function

machine-learning - 如何使用Rapidminer处理XML文件进行分类

artificial-intelligence - Quinlan的C4.5算法中如何计算数值属性的阈值?

haskell - 为什么 Haskell 中箭头函数的递归绑定(bind)会无限循环?

numpy - 如何生成每个类内符合正态分布的数据?

java - Apache Hama 适合构建决策树吗?

image-processing - 使用决策树

c - Magic Square代码帮助,想知道将数字向下移动到哪里用C编程

javascript - 为什么JS是解释型的而不是编译型的?