我有 250 张人脸图像,我将用这些图像来训练模型。 为了方便起见,我要做的是选择前 10 张图像,并使用留一图像交叉验证来训练模型,以便每个图像都有机会成为测试图像。我的理解是,在这种情况下,我的训练数据集的大小为 9,测试数据集的大小为 1。之后,我将获取接下来的 10 张图像,然后也使用它们来训练模型。 在这种情况下,我的训练数据集的大小将为 19,测试数据集的大小将为 1(这会重复发生 20 次,以便每个图像都有机会进入测试集)。 同样,这个值会一直上升,直到我使用了所有 250 张图像来训练模型。
我不明白的是“验证数据集”。我这样做的方式不对吗?
Stackoverflow 上有一个答案,但我不清楚。这就是我发布这个问题的原因
最佳答案
您应该按照大约 6:2:2 的比例将数据分为训练集、验证集和测试集。为了训练你的模型,你使用训练集。比较训练集和验证集的结果可以为您提供有关偏差和方差的信息。最后测试集显示您的模型预测效果如何。您的模型在训练期间不应看到任何测试示例。
关于machine-learning - "Training Data Set"、 "Testing Data Set"和 "Validation Data set"的区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25041565/