r - 何时使用训练验证测试集

我知道这个问题很常见，但我已经查看了之前提出的所有问题，但我仍然不明白为什么我们还需要验证集。我知道有时人们只使用训练集和测试集，那么为什么我们还需要验证集呢？我们如何使用它？例如，为了估算缺失数据，我是否分别估算这 3 个不同的集合？

谢谢!

最佳答案

我会试着用一个例子来回答。

如果我正在训练神经网络或进行线性回归，并且我只使用训练和测试数据，我可以检查每次迭代的测试数据丢失，并在我的测试数据丢失开始增加或获取快照时停止具有最低测试损失的模型。

从某种意义上说，这对我的测试数据来说是“过度拟合”，因为我会根据它来决定何时停止。

如果我使用的是测试、训练和验证数据，我可以使用验证而不是测试数据执行与上述相同的过程，然后在我决定我的模型何时完成训练后，我可以在前所未有的情况下对其进行测试看到测试数据给我的模型预测的更公正的分数。

对于问题的第二部分，我建议至少将测试数据视为独立数据并以不同方式估算缺失数据，但这取决于情况和数据。

关于r - 何时使用训练验证测试集，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55846628/

相关文章：

r - 从数据帧创建 sf 多边形