nlp - Gensim:word2vec和doc2vec有什么区别？

我是新手，不是母语的英语，所以在理解Gensim的word2vec和doc2vec时遇到一些麻烦。

我认为这两个词都通过most_similar()（经过培训）给了我一些与我请求的查询词最相似的词。

如何判断我必须使用word2vec或doc2vec的哪种情况？

有人可以用短词解释差异吗？

谢谢。

最佳答案

在word2vec中，您进行训练以找到单词向量，然后在单词之间运行相似性查询。在doc2vec中，您可以标记文本，还可以获取标记向量。例如，您有来自不同作者的不同文档，并将作者用作文档上的标记。然后，在doc2vec培训之后，您可以使用相同的向量算术对作者标签进行相似性查询：即谁与AUTHOR_X最相似的作者？如果两位作者通常使用相同的词，那么他们的媒介将更接近。 AUTHOR_X不是一个真实的词，它只是您确定的语料库的一部分。因此，您不需要它或将其手动插入文本中。 Gensim允许您使用或不使用字向量来训练doc2vec（即如果您仅关心彼此之间的标签相似性）。

这是有关word2vec基础的good presentation以及它们如何以创新方式将doc2vec用于产品推荐（related blog post）。

如果您告诉我您要解决的问题，也许我可以建议哪种方法更合适。

关于nlp - Gensim:word2vec和doc2vec有什么区别？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42827175/

nlp - Gensim:word2vec和doc2vec有什么区别？

上一篇：Silverlight XamlWriter

下一篇：objective-c - NSOperation 子类 isCancelled isFinished isConcurrent