nlp - Gensim:word2vec和doc2vec有什么区别?

标签 nlp gensim

我是新手,不是母语的英语,所以在理解Gensimword2vecdoc2vec时遇到一些麻烦。

我认为这两个词都通过most_similar()(经过培训)给了我一些与我请求的查询词最相似的词。

如何判断我必须使用word2vecdoc2vec的哪种情况?

有人可以用短词解释差异吗?

谢谢。

最佳答案

在word2vec中,您进行训练以找到单词向量,然后在单词之间运行相似性查询。在doc2vec中,您可以标记文本,还可以获取标记向量。例如,您有来自不同作者的不同文档,并将作者用作文档上的标记。然后,在doc2vec培训之后,您可以使用相同的向量算术对作者标签进行相似性查询:即谁与AUTHOR_X最相似的作者?如果两位作者通常使用相同的词,那么他们的媒介将更接近。 AUTHOR_X不是一个真实的词,它只是您确定的语料库的一部分。因此,您不需要它或将其手动插入文本中。 Gensim允许您使用或不使用字向量来训练doc2vec(即如果您仅关心彼此之间的标签相似性)。

这是有关word2vec基础的good presentation以及它们如何以创新方式将doc2vec用于产品推荐(related blog post)。

如果您告诉我您要解决的问题,也许我可以建议哪种方法更合适。

关于nlp - Gensim:word2vec和doc2vec有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42827175/

相关文章:

python-2.7 - 在特定文件上测试 NLTK 分类器

python - 布朗聚类算法输出是什么意思?

java - 在 Java 中构建/运行流式 Weka 文本分类器

python - 如何将句子加载到Python gensim中?

python - Gensim word2vec WMD 相似度字典

gensim - Word2Vec:使用的窗口大小的影响

python - 在 python 3 中匹配和替换多个字符串的有效方法?

api - 自然语言解析工具 : what is out there and what is not?

python - 生产环境中的文档相似度

Python gensim 从向量创建 word2vec 模型(在 ndarray 中)