machine-learning - Spark MLLib的Word2Vec余弦相似度大于1

标签 machine-learning word2vec neuroscience

http://spark.apache.org/docs/latest/mllib-feature-extraction.html#word2vec

在word2vec的spark实现上，当迭代次数或数据分区大于1时，由于某种原因，余弦相似度大于1。

据我所知，余弦相似度应该始终约为 -1 < cos < 1。有人知道为什么吗？

最佳答案

在word2vec的findSynonyms方法中，不计算余弦相似度v1・vi/|v1| |vi|，而是计算 v1・vi/|vi|，其中 v1 是查询词的向量，vi > 是候选词的向量。这就是为什么该值有时会超过 1。只是为了找到更接近的单词，没有必要除以 |v1|，因为它是常数。

关于machine-learning - Spark MLLib的Word2Vec余弦相似度大于1，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33360201/

上一篇：scala - 为什么 Spark ML NaiveBayes 输出的标签与训练数据不同？

下一篇：python - 简单回归示例 pyBrain

r - 如何在我自己的 R 语料库上训练 word2vec 模型？

python gensim 从 doc2vec taggedlinedocument 中检索原始句子

machine-learning - 泄漏积分和火神经元模型

python - 图像中的不相关信息对CNN的学习过程有多大影响？

artificial-intelligence - 大脑建模

python-2.7 - Pandas DataFrame 中两个日期之间的差异

machine-learning - 交互式决策树分类器

javascript - 从 Node 中的 Keras JS 加载 MNIST 数据集