optimization - 具有非常大的 λ 的正则化成本函数

标签 optimization machine-learning artificial-intelligence

考虑机器学习中正则化的成本函数:

enter image description here

为什么当我们将参数λ设置得很大时,参数θ会趋于零?

最佳答案

正则化成本函数受到参数 θ 大小的惩罚。

正则化项在情况 λ → +inf 中主导成本

值得注意的是,当 λ 很大时,大部分成本将来自正则化项 λ * sum (θ²)而不是实际成本sum((h_θ - y)²) ,因此在这种情况下,主要是最小化正则化项 λ * sum (θ²)将 θ 趋向于 0 ( θ → 0 )

为什么要最小化 λ * sum (θ²)结果 θ → 0

考虑正则化项 λ * sum (θ²) ,要最小化该术语,唯一的解决方案是按 sum(θ²) → 0 。 (λ 是正常数,sum 项也是正数)

θ开始项是平方的( θ² 始终为正),唯一的方法是插入 θ参数趋于 0。因此 sum(θ²) → 0意味着θ → 0

综上所述,在 λ 非常大的情况下:

最小化成本函数主要是最小化 λ * sum (θ²) ,这需要最小化 sum (θ²) ,这需要θ → 0

回答评论中问题的一些直觉:

将 λ 视为一个参数,用于告诉您想要进行多少正则化。例如。如果在极端情况下你将 λ 设置为 0,那么你的成本函数根本就没有被正则化。如果将 λ 设置为较小的数字,则正则化程度会降低。

反之亦然,增加 λ 越多,就越要求成本函数正则化,因此参数 θ 必须越小,才能最小化正则化成本函数。

为什么我们在正则化和中使用 θ² 而不是 θ?

因为目标是 θ 较小(不太容易过度拟合)。 如果正则化项在总和中使用 θ 而不是 θ², 您最终可能会得到相互抵消的较大 θ 值, 例如θ_1 = 1000000 且 θ_2 = -1000001,sum(θ)这里是-1,它很小,而如果你采取 sum(|θ|) (绝对值)或sum(θ²) (平方)你最终会得到一个非常大的值。

在这种情况下,您可能最终会过度拟合,因为较大的 θ 值逃脱了正则化,因为这些项相互抵消。

关于optimization - 具有非常大的 λ 的正则化成本函数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39052558/

相关文章:

php - 为什么 Magento 这么慢?

java - 创建没有依赖关系的紧凑 jar

machine-learning - 使用 Huggingface 的蒸馏器模型生成文本

artificial-intelligence - 比较电子产品规范的相似文字说明

c++ - 将函数实现为自由函数而不是 C++ 中的成员有什么优势吗?

optimization - Foldl 是尾递归,那么为什么foldr 运行得比foldl 快呢?

machine-learning - 为什么神经网络需要隐藏层?

algorithm - 在解决约束问题时需要帮助(第 2 次)

使用字典中的短语进行 R 情感分析

python - 图像生成器缺少 unet keras 的位置参数