machine-learning - "Training Data Set"、 "Testing Data Set"和 "Validation Data set"的区别

标签 machine-learning cross-validation training-data

我有 250 张人脸图像，我将用这些图像来训练模型。为了方便起见，我要做的是选择前 10 张图像，并使用留一图像交叉验证来训练模型，以便每个图像都有机会成为测试图像。我的理解是，在这种情况下，我的训练数据集的大小为 9，测试数据集的大小为 1。之后，我将获取接下来的 10 张图像，然后也使用它们来训练模型。在这种情况下，我的训练数据集的大小将为 19，测试数据集的大小将为 1(这会重复发生 20 次，以便每个图像都有机会进入测试集)。同样，这个值会一直上升，直到我使用了所有 250 张图像来训练模型。

我不明白的是“验证数据集”。我这样做的方式不对吗？

Stackoverflow 上有一个答案，但我不清楚。这就是我发布这个问题的原因

最佳答案

您应该按照大约 6:2:2 的比例将数据分为训练集、验证集和测试集。为了训练你的模型，你使用训练集。比较训练集和验证集的结果可以为您提供有关偏差和方差的信息。最后测试集显示您的模型预测效果如何。您的模型在训练期间不应看到任何测试示例。

关于machine-learning - "Training Data Set"、 "Testing Data Set"和 "Validation Data set"的区别，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25041565/

上一篇：machine-learning - 支持向量机的RBF核

下一篇：matlab - 调用函数并获取 - 输入参数不足，即使语法正确

相关文章：

ocr - Tesseract 培训 - 只有数字的新字体

python - 使用每个类的 ImageDataGenerator 仅使用 N 个图像

matlab - 如何在神经网络中实现与假阳性与假阴性平衡相关的事实？

python - 简单感知器中的正确反向传播

machine-learning - 如何从话语中删除预构建的实体标签

apache-spark - 在 Spark 中加载经过训练的交叉验证模型

java - 如何通过训练创建Stanford coreNLP模型？

opencv - 如何检测面部角度？

检索插入符号中保留折叠的预测

python - 将训练数据更改为 libsvm 格式以将其传递给 libsvm 中的 grid.py