具有大量参数的机器学习模型往往会过度拟合(因为它们有很大的方差)。在我看来,word2vec 就是这样的模型之一。减少模型方差的方法之一是应用正则化技术,这对于其他嵌入模型(例如矩阵分解)来说非常常见。然而,基本版本的word2vec
没有任何正则化部分。这有什么原因吗?
最佳答案
这是一个有趣的问题。
我想说,Word2Vec 中的过度拟合没有多大意义,因为单词嵌入的目标是尽可能精确地匹配单词出现分布。 Word2Vec 的设计目的不是学习训练词汇之外的任何内容,即泛化,而是逼近文本语料库定义的单一分布。从这个意义上说,Word2Vec 实际上是在尝试精确拟合,因此它不能过度拟合。
如果你的词汇量很小,就可以计算共现矩阵并找到嵌入(给定大小)的精确全局最小值,即获得完美的拟合,这将定义最佳的嵌入这种固定语言的上下文单词模型。
关于machine-learning - 为什么word2vec不使用正则化?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48266070/