machine-learning - 训练-测试分离的缺点

标签 machine-learning statistics data-science cross-validation

“训练/测试分割确实有其危险 — 如果我们进行的分割不是随机的怎么办？如果我们的数据子集只有来自某个州的人员、具有特定收入水平但没有其他收入水平的员工怎么办？，只有女性还是只有特定年龄的人？(想象一下按其中之一排序的文件)。这将导致过度拟合，即使我们试图避免它!这就是交叉验证的用武之地。以上是博客中提到的大部分内容，我不太明白。我认为缺点不是过拟合而是欠拟合。当我们分割数据时，假设状态A和B成为训练数据集，并尝试预测与训练数据完全不同的状态C，这将导致欠拟合。有人可以告诉我为什么大多数博客都说“测试分割”会导致过度拟合吗？

最佳答案

谈论selection bias会更正确。，您的问题所描述的。

选择偏差并不能真正与过度拟合相关，而是与拟合有偏差的集合相关，因此模型将无法正确概括/预测。

换句话说，无论“拟合”还是“过度拟合”适用于有偏差的训练集，这仍然是错误的。

“over”前缀的语义张力就是这样。这意味着偏见。

想象一下你没有选择偏见。在这种情况下，当您过度拟合(即使是健康的集合)时，根据过度拟合的定义，您仍然会使模型偏向于您的训练集。

在这里，您的起始训练集已经有偏差。因此任何拟合，即使是“正确拟合”，都会有偏差，就像过度拟合时发生的情况一样。

关于machine-learning - 训练-测试分离的缺点，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54904680/