rpart:分类回归量与连续回归量的计算时间

我目前正在使用 rpart用于将回归树拟合到观测值相对较少的数据和采用两个可能值的数千个分类预测变量的数据包。

通过在较小的数据上测试包，我知道在这种情况下，我是否将回归量声明为分类变量(即因子)或保持原样(它们被编码为 +/-1)并不重要。

但是，我仍然想了解为什么将我的解释变量作为因子传递会显着减慢算法的速度(尤其是因为我将很快获得新数据，其中响应采用 3 个不同的值并将它们视为连续值将不再是一种选择)。当然应该反过来？

这是模拟我的数据的示例代码:

library(rpart)

x <- as.data.frame(matrix(sample(c(-1, +1), 50 * 3000, replace = T), nrow = 50))
y <- rnorm(50)

x.fac <- as.data.frame(lapply(x, factor))

现在比较:

system.time(rpart( y ~ ., data = x, method = 'anova'))

   user  system elapsed 
   1.62    0.21    1.85 

system.time(rpart( y ~ ., data = x.fac, method = 'anova'))

   user  system elapsed 
   246.87  165.91  412.92

每个变量(因子)只处理一个潜在的 split 可能性比处理整个范围的潜在 split (对于连续变量)更简单和更快，所以我最困惑的是 rpart行为。任何澄清/建议将非常感激。

最佳答案

您需要对代码进行分析以确保，但如果时间差异不是来自 R 在准备模型矩阵时必须将每个因子变量转换为两个二元变量，我会感到惊讶。

尝试

Rprof("rpartProfile.Rprof")
rpart( y ~ ., data = x.fac, method = 'anova')
Rprof()

summaryRprof("rpartProfile.Rprof")

看看时间都花在哪里了。我现在已经完成了:

> summaryRprof("rpartProfile.Rprof")
$by.self
                          self.time self.pct total.time total.pct
"[[<-.data.frame"            786.46    72.45     786.56     72.46
"rpart.matrix"               294.26    27.11    1081.78     99.66
"model.frame.default"          1.04     0.10       3.00      0.28
"terms.formula"                0.96     0.09       0.96      0.09
"as.list.data.frame"           0.46     0.04       0.46      0.04
"makepredictcall.default"      0.46     0.04       0.46      0.04
"rpart"                        0.44     0.04    1085.38     99.99
"[[.data.frame"                0.16     0.01       0.42      0.04
"<Anonymous>"                  0.16     0.01       0.18      0.02
"match"                        0.14     0.01       0.22      0.02
"print"                        0.12     0.01       0.12      0.01
"model.matrix.default"         0.10     0.01       0.44      0.04
....

$by.total
                          total.time total.pct self.time self.pct
"rpart"                      1085.38     99.99      0.44     0.04
"rpart.matrix"               1081.78     99.66    294.26    27.11
"[[<-"                        786.62     72.47      0.06     0.01
"[[<-.data.frame"             786.56     72.46    786.46    72.45
"model.frame.default"           3.00      0.28      1.04     0.10
"eval"                          3.00      0.28      0.04     0.00
"eval.parent"                   3.00      0.28      0.00     0.00
"model.frame"                   3.00      0.28      0.00     0.00
"terms.formula"                 0.96      0.09      0.96     0.09
"terms"                         0.96      0.09      0.00     0.00
"makepredictcall"               0.50      0.05      0.04     0.00
"as.list.data.frame"            0.46      0.04      0.46     0.04
"makepredictcall.default"       0.46      0.04      0.46     0.04
"as.list"                       0.46      0.04      0.00     0.00
"vapply"                        0.46      0.04      0.00     0.00
"model.matrix.default"          0.44      0.04      0.10     0.01
"[["                            0.44      0.04      0.02     0.00
"model.matrix"                  0.44      0.04      0.00     0.00
....

$sample.interval
[1] 0.02

$sampling.time
[1] 1085.5

请注意，在函数 rpart.matrix 上花费了大量时间。 :

> rpart:::rpart.matrix
function (frame) 
{
    if (!inherits(frame, "data.frame") || is.null(attr(frame, 
        "terms"))) 
        return(as.matrix(frame))
    for (i in 1:ncol(frame)) {
        if (is.character(frame[[i]])) 
            frame[[i]] <- as.numeric(factor(frame[[i]]))
        else if (!is.numeric(frame[[i]])) 
            frame[[i]] <- as.numeric(frame[[i]])
    }
    X <- model.matrix(attr(frame, "terms"), frame)[, -1L, drop = FALSE]
    colnames(X) <- sub("^`(.*)`", "\\1", colnames(X))
    class(X) <- c("rpart.matrix", class(X))
    X
}

但它是for在花费大部分时间的那个函数中循环，基本上转换每一列并将它们添加回数据框。

关于rpart:分类回归量与连续回归量的计算时间，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17195021/

rpart:分类回归量与连续回归量的计算时间

上一篇：PHP 魔术方法 __unset() 在调用未设置函数时不起作用

下一篇：function - Lua - 执行存储在表中的函数