machine-learning - 训练-测试分离的缺点

标签 machine-learning statistics data-science cross-validation

“训练/测试分割确实有其危险 — 如果我们进行的分割不是随机的怎么办?如果我们的数据子集只有来自某个州的人员、具有特定收入水平但没有其他收入水平的员工怎么办? ,只有女性还是只有特定年龄的人?(想象一下按其中之一排序的文件)。这将导致过度拟合,即使我们试图避免它!这就是交叉验证的用武之地。以上是博客中提到的大部分内容,我不太明白。我认为缺点不是过拟合而是欠拟合。当我们分割数据时,假设状态A和B成为训练数据集,并尝试预测与训练数据完全不同的状态C,这将导致欠拟合。有人可以告诉我为什么大多数博客都说“测试分割”会导致过度拟合吗?

最佳答案

谈论selection bias会更正确。 ,您的问题所描述的。

选择偏差并不能真正与过度拟合相关,而是与拟合有偏差的集合相关,因此模型将无法正确概括/预测。

换句话说,无论“拟合”还是“过度拟合”适用于有偏差的训练集,这仍然是错误的。

“over”前缀的语义张力就是这样。这意味着偏见。

想象一下你没有选择偏见。在这种情况下,当您过度拟合(即使是健康的集合)时,根据过度拟合的定义,您仍然会使模型偏向于您的训练集。

在这里,您的起始训练集已经有偏差。因此任何拟合,即使是“正确拟合”,都会有偏差,就像过度拟合时发生的情况一样。

关于machine-learning - 训练-测试分离的缺点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54904680/

相关文章:

scala - SparkML 设置交叉验证器的并行度

python - 如何使用 matplotlib 比较一根图中的两个数据系列

matlab - fiddle 图 Matlab

R:使用fitdistrplus在离散数据的直方图上拟合曲线

Python Pandas 数据框行条目无法按条件进行比较

python - 如何将烧杯笔记本另存为直接 python/r/...?

machine-learning - 使用 Keras 创建可以生成新的相似数据的模型

tensorflow - 每次调用模型的新实例时,神经网络模型中的层数都会不断增加

r - 朴素贝叶斯分类器仅根据先验概率做出决策

r - 基于剪枝规则的分类树(PART算法)