`glmnet` 的岭回归给出的系数与我通过 "textbook definition"计算的系数不同?

标签 r machine-learning regression linear-regression glmnet

我正在使用 glmnet R 包运行 Ridge 回归。我注意到从 glmnet::glmnet 函数获得的系数与通过定义计算系数(使用相同的 lambda 值)获得的系数不同。有人可以解释一下为什么吗?

数据(两者:响应Y和设计矩阵X)已缩放。

library(MASS)
library(glmnet)

# Data dimensions
p.tmp <- 100
n.tmp <- 100

# Data objects
set.seed(1)
X <- scale(mvrnorm(n.tmp, mu = rep(0, p.tmp), Sigma = diag(p.tmp)))
beta <- rep(0, p.tmp)
beta[sample(1:p.tmp, 10, replace = FALSE)] <- 10
Y.true <- X %*% beta
Y <- scale(Y.true + matrix(rnorm(n.tmp))) # Y.true + Gaussian noise

# Run glmnet 
ridge.fit.cv <- cv.glmnet(X, Y, alpha = 0)
ridge.fit.lambda <- ridge.fit.cv$lambda.1se

# Extract coefficient values for lambda.1se (without intercept)
ridge.coef <- (coef(ridge.fit.cv, s = ridge.fit.lambda))[2:(p.tmp+1)]

# Get coefficients "by definition"
ridge.coef.DEF <- solve(t(X) %*% X + ridge.fit.lambda * diag(p.tmp)) %*% t(X) %*% Y

# Plot estimates
plot(ridge.coef, type = "l", ylim = range(c(ridge.coef, ridge.coef.DEF)),
     main = "black: Ridge `glmnet`\nred: Ridge by definition")
lines(ridge.coef.DEF, col = "red")

enter image description here

最佳答案

如果您阅读?glmnet ,你会看到高斯响应的惩罚目标函数为:

1/2 * RSS / nobs + lambda * penalty

万一岭罚1/2 * ||beta_j||_2^2使用后,我们有

1/2 * RSS / nobs + 1/2 * lambda * ||beta_j||_2^2

正比于

RSS + lambda * nobs * ||beta_j||_2^2

这与我们通常在教科书中看到的有关岭回归的内容不同:

RSS + lambda * ||beta_j||_2^2

你写的公式:

##solve(t(X) %*% X + ridge.fit.lambda * diag(p.tmp)) %*% t(X) %*% Y
drop(solve(crossprod(X) + diag(ridge.fit.lambda, p.tmp), crossprod(X, Y)))

为课本成绩;对于 glmnet我们应该期待:

##solve(t(X) %*% X + n.tmp * ridge.fit.lambda * diag(p.tmp)) %*% t(X) %*% Y
drop(solve(crossprod(X) + diag(n.tmp * ridge.fit.lambda, p.tmp), crossprod(X, Y)))

因此,教科书使用惩罚最小二乘法,但是glmnet使用惩罚均方误差

请注意,我没有使用您的原始代码 t() , "%*%"solve(A) %*% b ;使用crossprodsolve(A, b)更高效!请参阅最后的后续部分。

<小时/>

现在让我们进行一个新的比较:

library(MASS)
library(glmnet)

# Data dimensions
p.tmp <- 100
n.tmp <- 100

# Data objects
set.seed(1)
X <- scale(mvrnorm(n.tmp, mu = rep(0, p.tmp), Sigma = diag(p.tmp)))
beta <- rep(0, p.tmp)
beta[sample(1:p.tmp, 10, replace = FALSE)] <- 10
Y.true <- X %*% beta
Y <- scale(Y.true + matrix(rnorm(n.tmp)))

# Run glmnet 
ridge.fit.cv <- cv.glmnet(X, Y, alpha = 0, intercept = FALSE)
ridge.fit.lambda <- ridge.fit.cv$lambda.1se

# Extract coefficient values for lambda.1se (without intercept)
ridge.coef <- (coef(ridge.fit.cv, s = ridge.fit.lambda))[-1]

# Get coefficients "by definition"
ridge.coef.DEF <- drop(solve(crossprod(X) + diag(n.tmp * ridge.fit.lambda, p.tmp), crossprod(X, Y)))

# Plot estimates
plot(ridge.coef, type = "l", ylim = range(c(ridge.coef, ridge.coef.DEF)),
     main = "black: Ridge `glmnet`\nred: Ridge by definition")
lines(ridge.coef.DEF, col = "red")

enter image description here

请注意,我设置了 intercept = FALSE当我调用cv.glmnet时(或glmnet)。这比它在实践中的影响更具概念意义。从概念上讲,我们的教科书计算没有截距,因此我们希望在使用 glmnet 时删除截距。 。但实际上,自从你的 XY标准化后,截距的理论估计值为 0。即使使用 intercepte = TRUE ( glment 默认),您可以检查截距的估计为 ~e-17 (数值为 0),因此其他系数的估计不会受到显着影响。另一个答案只是显示这一点。

<小时/>

后续

As for the using crossprod and solve(A, b) - interesting! Do you by chance have any reference to simulation comparison for that?

t(X) %*% Y首先将进行转置 X1 <- t(X) ,然后执行 X1 %*% Y ,而crossprod(X, Y)不会进行转置。 "%*%" DGEMM 的包装对于案例op(A) = A, op(B) = B ,而crossprodop(A) = A', op(B) = B 的包装。同样tcrossprod对于 op(A) = A, op(B) = B' .

crossprod(X)的主要用途用于t(X) %*% X ;类似地 tcrossprod(X)对于 X %*% t(X) ,在这种情况下 DSYRK 而不是DGEMM叫做。您可以阅读 Why the built-in lm function is so slow in R?第一部分出于原因和基准。

请注意,如果 X不是方阵,crossprod(X)tcrossprod(X)速度并不相同,因为它们涉及不同数量的浮点运算,对此您可以阅读 Any faster R function than “tcrossprod” for symmetric dense matrix multiplication?附注

关于solvel(A, b)solve(A) %*% b ,请阅读How to compute diag(X %% solve(A) %% t(X)) efficiently without taking matrix inverse?第一部分

关于 `glmnet` 的岭回归给出的系数与我通过 "textbook definition"计算的系数不同?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39863367/

相关文章:

r - R包中打印功能的测试覆盖率

r - 为机器学习准备时间序列 - 长格式到宽格式

machine-learning - 神经网络模型中隐藏层的数量

python - 无法训练 pySpark SVM,标记点问题

r - 使用 `bbmle:mle2` 和矢量参数(已经使用 `optim` )

r - 使用 lapply() 进行文本操作

r - 需要出示国旗

r - 用于特征选择的 t-stat

r - 使用 purrr 和 R 执行多元回归

python - 为什么我的 GaussianProcessRegressor 模型返回恒定的预测