我有一个无限大的训练集来训练神经网络。
在这种情况下使用像 dropout 这样的正则化技术有意义吗?
最佳答案
是的,可能仍然如此。 Dropout 在某种意义上是正则化,但比 L1 范数之类的东西微妙得多。它可以防止特征检测器的过度共同适应,如原始论文中所述。
您可能不希望网络学习仅依赖于一个特征或一小部分特征组合,即使这是训练集中最好的特征,因为新数据中的情况可能并非如此。直观地说,即使训练集中没有这样的示例图像,经过训练以识别图像中的人的 dropout 网络也可能会在人脸被遮挡的情况下识别出他们(因为人脸高级特征会被丢弃一部分)的时间);未经 dropout 训练的网络可能不会(因为面部特征可能是检测人的最佳单一特征之一)。您可以将 dropout 视为某种程度的强制概念概括。
根据经验,当使用 dropout 时,使用 dropout 生成的特征检测器更加结构化(例如,对于图像:更接近 Gabor 滤波器,对于前几层);没有丢失,它们更接近随机(可能是因为该网络近似于 Gabor 滤波器,它使用随机滤波器的特定线性组合来收敛,如果它可以依赖于该组合的元素不被丢失,那么就不存在分离的梯度过滤器)。这也可能是一件好事,因为它迫使独立的功能尽早实现为独立的,这可能会导致以后的串扰降低。关于machine-learning - 无限大训练集的正则化?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36608184/