r - h2o.GBM 在小数据集上花费太长时间

标签 r h2o categorical-data gbm bigdata

我有一个相当小的数据集(162,000 个观察值,13 个属性) 我正在尝试使用 h2o.GBM 进行建模。响应变量是具有大量级别的分类变量(~ 20,000 个级别) 该模型没有耗尽内存或给出任何错误,但它已经运行了近 24 小时而没有任何进展(H2o.GBM 报告中显示 0%) 我终于屈服并停止了。 我想知道我的超参数是否有问题,因为数据不是特别大。

这是我的代码:

library(h2o)
localH2O <- h2o.init(nthreads = -1, max_mem_size = "12g") 
train.h20 <- as.h2o(analdata_train) 

  gbm1 <- h2o.gbm(
                    y = response_var
                  , x = independ_vars
                  , training_frame = train.h20
                  , ntrees = 3    
                  , max_depth = 5  
                  , min_rows = 10  
                  , stopping_tolerance = 0.001    
                  , learn_rate = 0.1  
                  , distribution = "multinomial" 
  )

最佳答案

H2O GBM 多项式分类的工作方式是,当您要求一棵树作为参数时,它实际上会在引擎盖下的响应列中为每个级别构建一棵树。

因此,在您的情况下,1 棵树实际上意味着 20,000 棵树。

2 棵树实际上意味着 40,000 棵树,依此类推......

(请注意,二项式分类案例采用捷径,仅为两个类构建一棵树。)

所以...它可能会完成,但可能需要相当长的时间!

关于r - h2o.GBM 在小数据集上花费太长时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44558411/

相关文章:

R:WMS map 未显示

r - 将列名添加到 dplyr 函数内的 vars()

r - 具有类别不平衡的 H2O 深度学习

plot - Julia:网格上分类数据的可视化

python - 在 Pandas 中获取虚拟变量,其中行包含多个变量作为列表?

r - lme4::lmer报告 “fixed-effect model matrix is rank deficient”,我是否需要修复以及如何解决?

h2o - H2O AutoML 中的 keep_cross_validation_predictions 参数

Python。 h2o.demo 在 jupyter 上导致异常

python - 是否可以使用分类随机变量在 PyMC3 中创建分层模型?

r - 向字符串/字符向量中的每个元素添加可变长度填充