machine-learning - 如果模型每次迭代都被丢弃,交叉验证的目的是什么

标签 machine-learning artificial-intelligence analytics data-science cross-validation

在交叉验证中,假设进行 k 次迭代,每次迭代我们基本上都会从头开始创建新模型 - 我们会丢弃之前的评分模型并基于不同的训练集创建一个新模型。

众所周知,模型的强度在于它所训练的数据(当然除了它的超参数)。

所以我的问题是 - 如果模型一直在变化,那么评分的意义何在?

交叉验证后,我们不取模型值的平均值。只是计算不再存在的模型的分数平均值。 我显然错过了一些东西,但除了选择超参数和马比作为最适合模型的指示(从非常高的角度来看) - 我没有看到交叉验证的好处。

最佳答案

您进行交叉验证,以估计您的模型在未见过的数据上的表现。重点是看看它的概括性如何。

完成交叉验证并对分数感到满意后,您可以对整个训练集进行重新训练,然后查看它在测试集上的表现如何。如果您的测试集与训练集具有相似的分布,并且交叉验证正确,那么您应该获得相似的分数。

您不能从一开始就使用测试集的原因是您只能使用测试集一次 - 如果您对测试集分数不满意,则无法返回并重新训练否则你就有过度拟合的风险。

关于machine-learning - 如果模型每次迭代都被丢弃,交叉验证的目的是什么,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59511059/

相关文章:

java - 如何解决java.lang.IndexOutOfBoundsException : Index: 0, Size: 0的问题

google-analytics - Google Analytics - 获取每个 UserId 的 session 数

machine-learning - 神经网络 - 如何处理 IRIS 输入向量?

python - Pytorch nn 模块泛化

python - 更大的批量大小减少训练时间

artificial-intelligence - 如何将人工神经网络的输出转换为概率?

excel - 计算游戏中单位的值(value)

artificial-intelligence - 跳棋的静态评估函数

基于 Mysql json 的趋势​​标签实现

google-analytics - 我可以将参数传递给 Google Data Studio 吗?