基本上,我想知道 sklearn 中的 LassoCV 如何在没有提供的情况下选择 alpha 值(收缩参数)。运行语句时,
reg = LassoCV(cv = 5) # cv = 5 for 5 fold cross val
reg.fit(X, Y)
我对我得到的结果很满意;但是,我很好奇模型如何选择最佳 alpha。它只是简单地迭代具有给定容差的范围内的所有 alpha 吗?
除此之外,我还想问一下当您为其提供 alpha 值或使用 n_alphas 参数时会发生什么,即:
reg = LassoCV(cv = 5, alphas = [.1, .2, .001, ...])
reg = LassoCV(cv = 5, n_alphas = 100)
它如何确定这些 alpha 值中哪一个最好?当提供多个 alpha 时,它循环通过哪些 alpha?
谢谢。
最佳答案
How does it determine which one of these alpha values are best?
它通过所有提交的 alpha
值进行交叉验证,并返回具有最高 score
的值,根据 docs , 是决定系数 R^2。
What alphas does it cycle through when providing a number of alphas?
用一个简单的例子就很容易看出;为简单起见,仅要求 n_alphas=5
,我们得到:
from sklearn.linear_model import LassoCV
from sklearn.datasets import make_regression
X, y = make_regression(noise=4, random_state=0)
reg = LassoCV(cv=5, n_alphas=5, random_state=0).fit(X, y)
根据docs ,拟合对象的属性之一是:
alphas_ : numpy array, shape (n_alphas,)
The grid of alphas used for fitting
所以,这里我们有:
reg.alphas_
# result:
array([ 6.92751635e+01, 1.23190597e+01, 2.19067302e+00,
3.89562872e-01, 6.92751635e-02])
精确值再次由参数 eps
间接确定,其默认值为 0.001
;再次来自文档:
eps : float, optional
Length of the path.
eps=1e-3
means thatalpha_min / alpha_max = 1e-3
.
所以,本质上它设置了一个可能的 aplhas 的网格,例如最小值与最大值的比率等于 eps
,这里是 0.001
;让我们验证一下我们的简单示例中的情况:
reg.alphas_[4]/reg.alphas_[0]
# result
0.00099999999999999959
对于所有实际用途,它确实等于 0.001
。
关于python - 没有提供任何参数时,LassoCV 中的参数选择如何工作?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57205585/