r - 来自 H2O Mojo/Pojo 的分类 TreeMap

标签 r graphviz h2o gbm

这个问题很大程度上借鉴了 this question 的解决方案作为起点。 鉴于我可以使用 R 生成 mojo 模型对象:

library(h2o)
h2o.init()
airlinedf <- h2o.importFile("http://s3.amazonaws.com/h2o-public-test-data/smalldata/airlines/allyears2k_headers.zip")
airlinemodel <- h2o.gbm(model_id = "airlinemodel",
                training_frame = airlinedf,
                x = c("Year", "Month", "DayofMonth", "DayOfWeek", "UniqueCarrier"),
                y = "IsDepDelayed",
                max_depth = 3,
                ntrees = 5)
h2o.download_mojo(airlinemodel, getwd(), FALSE)

和 bash/graphviz 生成该模型的 TreeMap :

java -cp h2o.jar hex.genmodel.tools.PrintMojo --tree 0 -i airlinemodel.zip -o airlinemodel.gv
dot -Tpng airlinemodel.gv -o airlinemodel.png

Example GBM Tree Diagram 我的问题有三个方面:

  1. 如何解释此可视化中的值和决策以及终端节点的值?第二层的 NA 是什么?如果终端节点中的值是“类概率”,它们怎么可能是负数?

    1. 有没有办法可视化或概念化模型中所有树的“汇总树”?

    2. 如何生成图表以使用颜色或形状来指示末端节点中项目的二元分类分配?

最佳答案

有一种使用 H2O 构建决策树的更好方法 - 无需提取 MOJO 或离开 R/Python - 使用新的 Tree API(从 3.22.0.1 开始)。有关全面的解释,请参阅:

  1. Inspecting Decision Trees with H2O
  2. Finally, You can Plot H2O Decision Trees in R

关于r - 来自 H2O Mojo/Pojo 的分类 TreeMap ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53382158/

相关文章:

python - GRAPHVIZ:强制节点位于页面顶部

graphviz - 如何避免 HTML graphviz 中的双边框

磁盘上的 R h2o 模型大小

Python h2o.init() 找不到 Java

linux - 安装包时出现问题

r - 无法在 data.table [, :=] function 中使用 eval(parse(...))

r - 如何继续使用 R 版本 2.x 并使用 install.packages() 按包名自动下载包?

C# 使用 QuickGraph 和 GraphViz 绘制图形

python - import h2o 在 anaconda cmd 上失败,但在 windows cmd 上有效?

r - 比较内核密度估计图