r - glmnet中的自动插入符号参数调整失败

标签 r r-caret glmnet

上下文和错误消息

我尝试在插入符号内使用glmnet拟合两类预测模型。使用插入符默认调音网格时出现错误。我不认为这是由于数据格式错误而引起的,因为在指定我自己的调整网格时,没有问题。
错误消息是:

Error in loop$lambda[loop$alpha == alph[i]] <- np[which.max(np)] : 
replacement has length zero

当检查发生错误的行时,人们会发现R试图在NA的矢量which.na()上找到最大的np(由caret/glmnet选择的lambda值?)。我无法正确调试此错误,因为在调用train()之后无法找到逐步浏览每一行代码的方法。我希望有更多经验的人可以帮助我。

最小的工作实例

我通过最小化数据集(从〜200行和〜40列开始),同时保留了错误,创建了一个最小的工作示例。请注意,manualModelFit可以正常工作,但无法计算modelFit:
library(caret)
library(glmnet)
# create data frame of features
var1 <- c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1)
var2 <- c(1,1,1,1,1,0,1,1,1,1,1,0,1,1,0,1,1)
trainData <- data.frame(v1 = var1, v2 = var2)
# create fature vector of outcomes
trainClass <- as.factor(c('event','event','event','event','event','event','event','event','event','event','nonEvent','event','event','event','event','event','nonEvent'))
# set k for k-fold CV
kInner = 5
# set randomization seed
mySeed = 1622017
# set options for caret in fitControl
fitControl <- trainControl( method = 'cv', number = kInner, classProbs = TRUE, allowParallel = FALSE, summaryFunction = twoClassSummary, verboseIter = FALSE)
# run parameter tuning with a user-specified tuning grid
set.seed(mySeed)
myTuneGrid <- expand.grid(alpha = c(0,0.5,1), lambda = c(0,0.5,1))
manualModelFit <- train(x = trainData, y = trainClass, method = 'glmnet' , trControl = fitControl, metric = 'ROC', tuneGrid = myTuneGrid)
# run default parameter tuning
set.seed(mySeed)
modelFit <- train(x = trainData, y = trainClass, method = 'glmnet' , trControl = fitControl, metric = 'ROC')

问题

是什么原因导致故障?
这是插入符号/glmnet中的错误,还是由于我忽略了数据集的属性?我分析的多个数据集中出现此错误。

最佳答案

确实,问题出在tuneGrid上。在train.default的第225行有代码

tuneGrid <- models$grid(x = x, y = y, len = tuneLength, 
            search = trControl$search)

你的例子给了我
  alpha lambda
1  0.10     NA
2  0.55     NA
3  1.00     NA
Warning messages:
1: In lognet(x, is.sparse, ix, jx, y, weights, offset, alpha, nobs,  :
  one multinomial or binomial class has fewer than 8  observations; dangerous ground
2: from glmnet Fortran code (error code -2); Convergence for 2th lambda value not reached after maxit=100000 iterations; solutions for larger lambdas returned 

显然,lambda的NA导致稍后循环。 models$grid是以下功能:
findGrid <- function (x, y, len = NULL, search = "grid") {
    if (search == "grid") {
        numLev <- if (is.character(y) | is.factor(y)) 
            length(levels(y))
        else NA
        if (!is.na(numLev)) {
            fam <- ifelse(numLev > 2, "multinomial", "binomial")
        }
        else fam <- "gaussian"
        init <- glmnet(as.matrix(x), y, family = fam, nlambda = len + 
                        2, alpha = 0.5)
        lambda <- unique(init$lambda)
        lambda <- lambda[-c(1, length(lambda))]
        lambda <- lambda[1:min(length(lambda), len)]
        out <- expand.grid(alpha = seq(0.1, 1, length = len), 
                           lambda = lambda)
    }
    else {
        out <- data.frame(alpha = runif(len, min = 0, 1), lambda = 2^runif(len, 
                                                                           min = -10, 3))
    }
    out
}

我将其重命名为findGrid。如果使用findGrid(trainData, trainClass, 3)运行它,您应该得到相同的警告和错误的网格返回。在这种二进制情况下,它所做的就是:
init <- glmnet(as.matrix(x), y, family = "binomial", nlambda = len + 2, alpha = 0.5)
lambda <- unique(init$lambda) # contains one value, 
lambda <- lambda[-c(1, length(lambda))]
lambda <- lambda[1:min(length(lambda), len)]
out <- expand.grid(alpha = seq(0.1, 1, length = len), 
                   lambda = lambda)

现在,在lambda <- unique(init$lambda)之后,lambda仅包含一个值为9.9e+35的值。因此,以后使用索引的任何操作都不再起作用,而是创建NA。增加glmnet中的迭代次数无法避免该错误。因此,让我们跳过这些行并使用获得的网格,看看是否可以解决问题。
init <- glmnet(as.matrix(x), y, family = "binomial", nlambda = len + 2, alpha = 0.5)
lambda <- unique(init$lambda) # contains one value, 
out <- expand.grid(alpha = seq(0.1, 1, length = len), lambda = lambda)
modelFit <- train(x = trainData, y = trainClass, method = 'glmnet' , trControl = fitControl, metric = 'ROC', 
                  tuneGrid = out) # <-- use the tuneGrid we made

可以运行,但还会给我17条警告,所有形式:
Warning messages:
1: In eval(expr, envir, enclos) :
  model fit failed for Fold1: alpha=0.10, lambda=9.9e+35 Error in lognet(x, is.sparse, ix, jx, y, weights, offset, alpha, nobs,  : 
  one multinomial or binomial class has 1 or 0 observations; not allowed

因此,您将必须找到一种制作适当网格的方法。这可以通过某种方式修复glmnet或进行一些猜测/反复试验来完成。但是,我很犹豫在此答案中寻找一种调优网格的方法,因为它很可能是特定于数据的问题。出发点是查看您的完整数据集在某些类别中是否也没有观察到的数据。

另外,要自己调试,最简单的方法是调用View(caret:::train.default)来查看该函数。 :::从隐藏的 namespace 导入它。接下来,您可以将所有代码复制到train2函数中,并使用浏览器语句逐行调试代码(至少,这就是我所做的)。 R找不到的任何其他函数也必须加上caret:::前缀。

关于r - glmnet中的自动插入符号参数调整失败,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42488726/

相关文章:

r - 随机森林模型预测结果的差异

r - igraph 对象可以有有向和无向边吗?

R - 带有 ggplot2 : change values of precipitaion to fit second axis 的气候仪

r - 错误 : (converted from warning) package ‘glmnet’ is not available (for R version 3. 5.3)

r - R 中的典型相关分析

r - 如何在R中使用循环和并行获得相同的结果?

R 插入符号 rpart 返回 `[.data.frame` 中的错误(m,实验室): undefined columns selected

r - 在 Caret 中使用 frbs 包中的 SBC 时出现错误 "Something is wrong; all the RMSE metric values are missing"

r - glmnet 变量重要性 | `vip` 与 `varImp`

r - 为什么我使用 Logistic 正则化 glmnet 代码得到 0 和 1 之外的概率?