machine-learning - 为什么word2vec不使用正则化？

具有大量参数的机器学习模型往往会过度拟合(因为它们有很大的方差)。在我看来，word2vec 就是这样的模型之一。减少模型方差的方法之一是应用正则化技术，这对于其他嵌入模型(例如矩阵分解)来说非常常见。然而，基本版本的word2vec没有任何正则化部分。这有什么原因吗？

最佳答案

这是一个有趣的问题。

我想说，Word2Vec 中的过度拟合没有多大意义，因为单词嵌入的目标是尽可能精确地匹配单词出现分布。 Word2Vec 的设计目的不是学习训练词汇之外的任何内容，即泛化，而是逼近文本语料库定义的单一分布。从这个意义上说，Word2Vec 实际上是在尝试精确拟合，因此它不能过度拟合。

如果你的词汇量很小，就可以计算共现矩阵并找到嵌入(给定大小)的精确全局最小值，即获得完美的拟合，这将定义最佳的嵌入这种固定语言的上下文单词模型。

关于machine-learning - 为什么word2vec不使用正则化？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48266070/

相关文章：

tensorflow - 在 Keras IMDB 示例中使用字符串作为输入