machine-learning - 在增强数据集中生成测试集

标签 machine-learning scikit-learn caffe

我手头有一个图像检索任务。我有一个数据集,每个类的图像不多,因此我最终根据 Keras blog 的一些灵感来扩充数据集(类中每个图像 3 个副本)。 。我使用 sklearn 中的 train_test_split 方法来分割从增强数据集生成的数据集。现在,因为这是随机分割,所以在测试时,有可能将用于测试的图像与其自身的增强对应图像进行测试,例如,将翻转且稍微倾斜的图像与其原始图像进行测试。在这种情况下,结果是否有可能出现偏差?除了仅获取新数据进行测试之外,还有其他方法可以解决这个问题吗?

最佳答案

是的,这就是所谓的“泄漏”,除非数据增强转换非常彻底,以至于生成的图像可能与真实的测试集相似,否则最好在进行增强之前分割训练/测试集,并且仅在训练集中进行增强。

关于machine-learning - 在增强数据集中生成测试集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41996660/

相关文章:

algorithm - Scikit-Learn RFECV 仅基于网格分数的特征数量

python - Caffe编译报错: ld: can't map file, errno=22

python - 为什么这里的套索没有为我提供零系数?

python - SK学习: Getting distance of each point from decision boundary?

python - 从 Python Dataframe 创建术语频率矩阵

image-processing - Caffe 支持 16 位图像吗?如果没有,如何实现支持?

deep-learning - 具有更大输入图像尺寸的 Caffe 预训练模型

math - 梯度下降算法中的delta到底是什么意思?

python - 使用 keras 实现 u-net 时 Jaccard 精度为零

python - 从前一行中减去具有 DataFrame 中前一组值的行