machine-learning - 为什么word2vec不使用正则化?

标签 machine-learning nlp word2vec embedding regularized

具有大量参数的机器学习模型往往会过度拟合(因为它们有很大的方差)。在我看来,word2vec 就是这样的模型之一。减少模型方差的方法之一是应用正则化技术,这对于其他嵌入模型(例如矩阵分解)来说非常常见。然而,基本版本的word2vec没有任何正则化部分。这有什么原因吗?

最佳答案

这是一个有趣的问题。

我想说,Word2Vec 中的过度拟合没有多大意义,因为单词嵌入的目标是尽可能精确地匹配单词出现分布。 Word2Vec 的设计目的不是学习训练词汇之外的任何内容,即泛化,而是逼近文本语料库定义的单一分布。从这个意义上说,Word2Vec 实际上是在尝试精确拟合,因此它不能过度拟合。

如果你的词汇量很小,就可以计算共现矩阵并找到嵌入(给定大小)的精确全局最小值,即获得完美的拟合,这将定义最佳的嵌入这种固定语言的上下文单词模型。

关于machine-learning - 为什么word2vec不使用正则化?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48266070/

相关文章:

tensorflow - 在 Keras IMDB 示例中使用字符串作为输入

azure - 在 Web 聊天中测试 Azure Web App 机器人时出现无效资源 ID 错误

nlp - 如何评估Word2Vec的性能?

machine-learning - 层次聚类

machine-learning - Keras 中 fit_generator 的下一个纪元的起点

machine-learning - Scikit Learn 中小正样本集的机器学习实验设计

nlp - 有自然语言的网络应用框架吗?

python - 了解 gensim.similarities.index 中 AnnoyIndexer 的most_similar 方法

python-3.x - Gensim build_vocab 耗时过长

machine-learning - 如何为机器学习和预测建立良好的训练数据集?