目前我正在训练类似于 Flickrlogos-32 的小型 Logo 数据集与深度 CNN。为了训练更大的网络,我需要更多的数据集,因此使用增强。我现在做的最好的事情是使用仿射变换(特征归一化、特征中心、旋转、宽度高度移位、水平垂直翻转)。但对于更大的网络,我需要更多的增强。我尝试在 Kaggle 的国家数据科学碗上搜索 forum但无法得到太多帮助。给出了一些方法的代码 here但我不确定什么会有用。除了仿射变换之外,还有哪些其他(或更好的)图像数据增强技术可以应用于此类(或任何一般图像)数据集?
最佳答案
可以找到一个很好的回顾 here ,关于数据增强的第 1 节:即翻转、随机裁剪和颜色抖动以及照明噪声:
Krizhevsky et al. proposed fancy PCA when training the famous Alex-Net in 2012. Fancy PCA alters the intensities of the RGB channels in training images.
或者,您也可以看看 Kaggle Galaxy Zoo 挑战赛:获胜者写了一条 very detailed blog post 。它涵盖了相同类型的技术:
- 旋转,
- 翻译,
- 缩放,
- 翻转,
- 颜色扰动。
如前所述,他们也“实时进行,即在训练期间”。
例如这里是一个实用的Torch implementation通过 Facebook(用于 ResNet 培训)。
关于image-processing - 小图像数据集的数据增强技术?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36144993/