我手头有一个图像检索任务。我有一个数据集,每个类的图像不多,因此我最终根据 Keras blog 的一些灵感来扩充数据集(类中每个图像 3 个副本)。 。我使用 sklearn 中的 train_test_split 方法来分割从增强数据集生成的数据集。现在,因为这是随机分割,所以在测试时,有可能将用于测试的图像与其自身的增强对应图像进行测试,例如,将翻转且稍微倾斜的图像与其原始图像进行测试。在这种情况下,结果是否有可能出现偏差?除了仅获取新数据进行测试之外,还有其他方法可以解决这个问题吗?
最佳答案
是的,这就是所谓的“泄漏”,除非数据增强转换非常彻底,以至于生成的图像可能与真实的测试集相似,否则最好在进行增强之前分割训练/测试集,并且仅在训练集中进行增强。
关于machine-learning - 在增强数据集中生成测试集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41996660/