machine-learning - Spark MLLib的Word2Vec余弦相似度大于1

标签 machine-learning word2vec neuroscience

http://spark.apache.org/docs/latest/mllib-feature-extraction.html#word2vec

在word2vec的spark实现上,当迭代次数或数据分区大于1时,由于某种原因,余弦相似度大于1。

据我所知,余弦相似度应该始终约为 -1 < cos < 1。有人知道为什么吗?

最佳答案

word2vecfindSynonyms方法中,不计算余弦相似度v1・vi/|v1| |vi|,而是计算 v1・vi/|vi|,其中 v1 是查询词的向量,vi > 是候选词的向量。 这就是为什么该值有时会超过 1。 只是为了找到更接近的单词,没有必要除以 |v1|,因为它是常数。

关于machine-learning - Spark MLLib的Word2Vec余弦相似度大于1,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33360201/

相关文章:

machine-learning - 将 Google ML Engine 与 BigQuery 结合使用?

r - 如何在我自己的 R 语料库上训练 word2vec 模型?

python gensim 从 doc2vec taggedlinedocument 中检索原始句子

machine-learning - 泄漏积分和火神经元模型

python - 图像中的不相关信息对CNN的学习过程有多大影响?

artificial-intelligence - 大脑建模

python-2.7 - Pandas DataFrame 中两个日期之间的差异

machine-learning - 交互式决策树分类器

javascript - 从 Node 中的 Keras JS 加载 MNIST 数据集