machine-learning - Word to Vector 中的线性激活函数

标签 machine-learning nlp deep-learning word2vec activation-function

word2vec paper ,他们使用线性激活函数。我的原因可能是他们提供了足够的训练数据来学习词嵌入,因此不需要非线性激活函数,我是对的吗?

此外,如果我们在隐藏层中使用非线性激活函数,那么我认为结果应该会更好。那么为什么谷歌在单词到向量的情况下使用线性激活函数呢?

最佳答案

在我看来,您的困惑大部分来自于认为他们的模型完全是线性的。这不是真的,因为实际上最后总是有一个 softmax 层。线性是指之前的一切,这与 NNLM 不同。

请记住,所有单词表示方法的主要思想是预测相邻单词,即通过中心单词最大化上下文的总条件概率(反之亦然):

probability model

因此目标函数必然以最终的 softmax 层(或类似层)结束。我鼓励您阅读this post有关更多详细信息,它非常简短且写得很好。

你是对的,神经网络的非线性程度越高,它的灵 active 就越大,从而更好地逼近目标分布。在这种情况下,他们认为额外的灵 active 并没有带来返回:最终,他们更快地获得了非常好的结果,这使得可以将此方法扩展到巨大的语料库,从而提供更好的结果。

旁注:线性回归根本不需要训练来找到解决方案,有一个封闭的公式(尽管大矩阵存在技术困难)。

关于machine-learning - Word to Vector 中的线性激活函数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45115809/

相关文章:

python - keras中注意力层是如何实现的?

python - 如何在Python随机森林模型中删除可预测值(y)

c++ - 寻找在 C++ 中实现顺序最小优化的库

nlp - 计算 unigram 语言模型中的 unigram 概率时 "word count"指的是什么?

python - Python 中 Twitter 的情感分析

python - 在 Tensorflow 中使用 3d 转置卷积时计算 output_shape

python - 如何为图像数据集添加标签进行分类?

Matlab - 神经网络训练

python - Doc2Vec 比 Word2Vec 向量的均值或总和差

machine-learning - 如何使用 stanford nlp 查找单词的将来时态