rpart:分类回归量与连续回归量的计算时间

标签 r tree statistics rpart

我目前正在使用 rpart用于将回归树拟合到观测值相对较少的数据和采用两个可能值的数千个分类预测变量的数据包。

通过在较小的数据上测试包,我知道在这种情况下,我是否将回归量声明为分类变量(即因子)或保持原样(它们被编码为 +/-1)并不重要。

但是,我仍然想了解为什么将我的解释变量作为因子传递会显着减慢算法的速度(尤其是因为我将很快获得新数据,其中响应采用 3 个不同的值并将它们视为连续值将不再是一种选择)。当然应该反过来?

这是模拟我的数据的示例代码:

library(rpart)

x <- as.data.frame(matrix(sample(c(-1, +1), 50 * 3000, replace = T), nrow = 50))
y <- rnorm(50)

x.fac <- as.data.frame(lapply(x, factor))

现在比较:
system.time(rpart( y ~ ., data = x, method = 'anova'))

   user  system elapsed 
   1.62    0.21    1.85 

system.time(rpart( y ~ ., data = x.fac, method = 'anova'))

   user  system elapsed 
   246.87  165.91  412.92 

每个变量(因子)只处理一个潜在的 split 可能性比处理整个范围的潜在 split (对于连续变量)更简单和更快,所以我最困惑的是 rpart行为。任何澄清/建议将非常感激。

最佳答案

您需要对代码进行分析以确保,但如果时间差异不是来自 R 在准备模型矩阵时必须将每个因子变量转换为两个二元变量,我会感到惊讶。

尝试

Rprof("rpartProfile.Rprof")
rpart( y ~ ., data = x.fac, method = 'anova')
Rprof()

summaryRprof("rpartProfile.Rprof")

看看时间都花在哪里了。我现在已经完成了:
> summaryRprof("rpartProfile.Rprof")
$by.self
                          self.time self.pct total.time total.pct
"[[<-.data.frame"            786.46    72.45     786.56     72.46
"rpart.matrix"               294.26    27.11    1081.78     99.66
"model.frame.default"          1.04     0.10       3.00      0.28
"terms.formula"                0.96     0.09       0.96      0.09
"as.list.data.frame"           0.46     0.04       0.46      0.04
"makepredictcall.default"      0.46     0.04       0.46      0.04
"rpart"                        0.44     0.04    1085.38     99.99
"[[.data.frame"                0.16     0.01       0.42      0.04
"<Anonymous>"                  0.16     0.01       0.18      0.02
"match"                        0.14     0.01       0.22      0.02
"print"                        0.12     0.01       0.12      0.01
"model.matrix.default"         0.10     0.01       0.44      0.04
....

$by.total
                          total.time total.pct self.time self.pct
"rpart"                      1085.38     99.99      0.44     0.04
"rpart.matrix"               1081.78     99.66    294.26    27.11
"[[<-"                        786.62     72.47      0.06     0.01
"[[<-.data.frame"             786.56     72.46    786.46    72.45
"model.frame.default"           3.00      0.28      1.04     0.10
"eval"                          3.00      0.28      0.04     0.00
"eval.parent"                   3.00      0.28      0.00     0.00
"model.frame"                   3.00      0.28      0.00     0.00
"terms.formula"                 0.96      0.09      0.96     0.09
"terms"                         0.96      0.09      0.00     0.00
"makepredictcall"               0.50      0.05      0.04     0.00
"as.list.data.frame"            0.46      0.04      0.46     0.04
"makepredictcall.default"       0.46      0.04      0.46     0.04
"as.list"                       0.46      0.04      0.00     0.00
"vapply"                        0.46      0.04      0.00     0.00
"model.matrix.default"          0.44      0.04      0.10     0.01
"[["                            0.44      0.04      0.02     0.00
"model.matrix"                  0.44      0.04      0.00     0.00
....

$sample.interval
[1] 0.02

$sampling.time
[1] 1085.5

请注意,在函数 rpart.matrix 上花费了大量时间。 :
> rpart:::rpart.matrix
function (frame) 
{
    if (!inherits(frame, "data.frame") || is.null(attr(frame, 
        "terms"))) 
        return(as.matrix(frame))
    for (i in 1:ncol(frame)) {
        if (is.character(frame[[i]])) 
            frame[[i]] <- as.numeric(factor(frame[[i]]))
        else if (!is.numeric(frame[[i]])) 
            frame[[i]] <- as.numeric(frame[[i]])
    }
    X <- model.matrix(attr(frame, "terms"), frame)[, -1L, drop = FALSE]
    colnames(X) <- sub("^`(.*)`", "\\1", colnames(X))
    class(X) <- c("rpart.matrix", class(X))
    X
}

但它是for在花费大部分时间的那个函数中循环,基本上转换每一列并将它们添加回数据框。

关于rpart:分类回归量与连续回归量的计算时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17195021/

相关文章:

r - R 中的 cv.glmnet 是否为二进制数据返回双 MSE?

r - 将字符包名称传递给帮助函数

algorithm - 插入2-3-4树时如何拆分节点?

java - 求树的最大深度

java - 如何在 Java 中生成连续泊松分布?

python - 使用 python 进行逻辑回归

javascript - 使用 Datatable Shiny 时列过滤器不可见

c# - 层次类的迭代器

c# - 测试 Web 服务流量的免费工具?

r - 按因子填充序列