machine-learning - 在增强数据集中生成测试集

标签 machine-learning scikit-learn caffe

我手头有一个图像检索任务。我有一个数据集，每个类的图像不多，因此我最终根据 Keras blog 的一些灵感来扩充数据集(类中每个图像 3 个副本)。。我使用 sklearn 中的 train_test_split 方法来分割从增强数据集生成的数据集。现在，因为这是随机分割，所以在测试时，有可能将用于测试的图像与其自身的增强对应图像进行测试，例如，将翻转且稍微倾斜的图像与其原始图像进行测试。在这种情况下，结果是否有可能出现偏差？除了仅获取新数据进行测试之外，还有其他方法可以解决这个问题吗？

最佳答案

是的，这就是所谓的“泄漏”，除非数据增强转换非常彻底，以至于生成的图像可能与真实的测试集相似，否则最好在进行增强之前分割训练/测试集，并且仅在训练集中进行增强。

关于machine-learning - 在增强数据集中生成测试集，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41996660/

上一篇：machine-learning - Caffe - 如何使用还原层？

下一篇：numpy - Keras 数组输入错误

python - Caffe编译报错: ld: can't map file, errno=22

python - 为什么这里的套索没有为我提供零系数？

python - SK学习: Getting distance of each point from decision boundary?

python - 从 Python Dataframe 创建术语频率矩阵

image-processing - Caffe 支持 16 位图像吗？如果没有，如何实现支持？

deep-learning - 具有更大输入图像尺寸的 Caffe 预训练模型

math - 梯度下降算法中的delta到底是什么意思？

python - 使用 keras 实现 u-net 时 Jaccard 精度为零

python - 从前一行中减去具有 DataFrame 中前一组值的行