optimization - 具有非常大的 λ 的正则化成本函数

考虑机器学习中正则化的成本函数:

为什么当我们将参数λ设置得很大时，参数θ会趋于零？

最佳答案

正则化成本函数受到参数 θ 大小的惩罚。

正则化项在情况 λ → +inf 中主导成本

值得注意的是，当 λ 很大时，大部分成本将来自正则化项 λ * sum (θ²)而不是实际成本sum((h_θ - y)²) ，因此在这种情况下，主要是最小化正则化项 λ * sum (θ²)将 θ 趋向于 0 ( θ → 0 )

为什么要最小化 λ * sum (θ²)结果 θ → 0

考虑正则化项 λ * sum (θ²) ，要最小化该术语，唯一的解决方案是按 sum(θ²) → 0 。 (λ 是正常数，sum 项也是正数)

从θ开始项是平方的( θ² 始终为正)，唯一的方法是插入 θ参数趋于 0。因此 sum(θ²) → 0意味着θ → 0

综上所述，在 λ 非常大的情况下:

最小化成本函数主要是最小化 λ * sum (θ²) ，这需要最小化 sum (θ²) ，这需要θ → 0

回答评论中问题的一些直觉:

将 λ 视为一个参数，用于告诉您想要进行多少正则化。例如。如果在极端情况下你将 λ 设置为 0，那么你的成本函数根本就没有被正则化。如果将 λ 设置为较小的数字，则正则化程度会降低。

反之亦然，增加 λ 越多，就越要求成本函数正则化，因此参数 θ 必须越小，才能最小化正则化成本函数。

为什么我们在正则化和中使用 θ² 而不是 θ？

因为目标是 θ 较小(不太容易过度拟合)。如果正则化项在总和中使用 θ 而不是 θ²，您最终可能会得到相互抵消的较大 θ 值，例如θ_1 = 1000000 且 θ_2 = -1000001，sum(θ)这里是-1，它很小，而如果你采取 sum(|θ|) (绝对值)或sum(θ²) (平方)你最终会得到一个非常大的值。

在这种情况下，您可能最终会过度拟合，因为较大的 θ 值逃脱了正则化，因为这些项相互抵消。

关于optimization - 具有非常大的 λ 的正则化成本函数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39052558/

optimization - 具有非常大的 λ 的正则化成本函数

上一篇：python - scikit learn 中的 OneHotEncoder 困惑

下一篇：machine-learning - TensorFlow 二元分类任务精度较差，但 SciKit-Learn GBM 效果良好