algorithm - 为什么过度拟合给出了错误的假设函数

标签 algorithm machine-learning linear-regression

在线性或逻辑回归中,如果我们找到一个完美适合训练集的假设函数,那应该是一件好事,因为在这种情况下,我们已经使用了 100% 的给定信息来预测新信息。
虽然它被称为过度拟合并被认为是坏事。
通过简化假设函数,我们实际上可能会增加噪声而不是减少噪声。
为什么会这样?

最佳答案

当您“过于努力”地尝试使训练集中的示例符合分类规则时,就会发生过度拟合。

它被认为是坏事有两个主要原因:

  1. 数据可能有噪声。过于努力地对 100% 的示例进行正确分类,会使噪声计数,并在忽略这种噪声的同时给您一个错误的规则 - 通常会好得多。
  2. 请记住,分类训练集只是真实数据的样本。如果你容忍一些错误分类的样本,这个解决方案通常比你会得到的更复杂。根据Occam's Razor ,你应该更喜欢更简单的解决方案,所以忽略一些样本,会更好,

示例:

根据奥卡姆 Razor ,你应该容忍错误分类的样本,并假设它是噪声或无关紧要的,并在这个数据集中采用简单的解决方案(绿线): enter image description here

关于algorithm - 为什么过度拟合给出了错误的假设函数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10653860/

相关文章:

algorithm - 如何找到一个和的增长顺序?

javascript - 查找数组中的所有子集,递归不起作用,JavaScript

Python 文本处理 : NLTK and pandas

python - 使用 PyMC3 预测贝叶斯线性回归中新数据的后验

python - python 线性回归中字符串的预测

python - 如何平滑分段的 blob?

regex - 正则表达式算法

python - 如何训练仅由 True 组成的数据集?在Python中

machine-learning - 较深层的神经元如何能够比较浅/较早层的神经元做出更复杂的决策?

R - 给定训练集和测试集的训练模型,计算测试 MSE