machine-learning - "Training Data Set"、 "Testing Data Set"和 "Validation Data set"的区别

标签 machine-learning cross-validation training-data

我有 250 张人脸图像,我将用这些图像来训练模型。 为了方便起见,我要做的是选择前 10 张图像,并使用留一图像交叉验证来训练模型,以便每个图像都有机会成为测试图像。我的理解是,在这种情况下,我的训练数据集的大小为 9,测试数据集的大小为 1。之后,我将获取接下来的 10 张图像,然后也使用它们来训练模型。 在这种情况下,我的训练数据集的大小将为 19,测试数据集的大小将为 1(这会重复发生 20 次,以便每个图像都有机会进入测试集)。 同样,这个值会一直上升,直到我使用了所有 250 张图像来训练模型。

我不明白的是“验证数据集”。我这样做的方式不对吗?

Stackoverflow 上有一个答案,但我不清楚。这就是我发布这个问题的原因

最佳答案

您应该按照大约 6:2:2 的比例将数据分为训练集、验证集和测试集。为了训练你的模型,你使用训练集。比较训练集和验证集的结果可以为您提供有关偏差和方差的信息。最后测试集显示您的模型预测效果如何。您的模型在训练期间不应看到任何测试示例。

关于machine-learning - "Training Data Set"、 "Testing Data Set"和 "Validation Data set"的区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25041565/

相关文章:

ocr - Tesseract 培训 - 只有数字的新字体

python - 使用每个类的 ImageDataGenerator 仅使用 N 个图像

matlab - 如何在神经网络中实现与假阳性与假阴性平衡相关的事实?

python - 简单感知器中的正确反向传播

machine-learning - 如何从话语中删除预构建的实体标签

apache-spark - 在 Spark 中加载经过训练的交叉验证模型

java - 如何通过训练创建Stanford coreNLP模型?

opencv - 如何检测面部角度?

检索插入符号中保留折叠的预测

python - 将训练数据更改为 libsvm 格式以将其传递给 libsvm 中的 grid.py