machine-learning - 加载 doc2vec 的预训练 word2vec 模型

标签 machine-learning nlp gensim word2vec doc2vec

我正在使用 gensim 从文档中提取特征向量。我已从 Google 下载了名为 GoogleNews-vectors-male300.bin 的预训练模型，并使用以下命令加载了该模型:

model = models.Doc2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)

我的目的是从文档中获取特征向量。对于一个单词，很容易得到对应的向量:

vector = model[word]

但是，我不知道如何对文档执行此操作。你能帮忙吗？

最佳答案

对于 Doc2Vec 创建的文本向量(Le/Mikolov“段落向量”)类型来说，一组词向量(例如 GoogleNews-vectors-male300.bin)既不是必要的，也不是充分的类(class)。相反，它希望通过示例文本进行训练来学习每个文档的向量。然后，经过训练的模型还可以用于“推断”其他新文档的向量。

(Doc2Vec 类仅支持 load_word2vec_format() 方法，因为它继承自 Word2Vec 类，而不是因为它需要该功能。)

还有另一种简单的文本向量，可以通过简单地平均文档中的所有单词来创建，也许还可以根据某些每个单词的重要性权重来创建。但这不是 Doc2Vec 提供的。

关于machine-learning - 加载 doc2vec 的预训练 word2vec 模型，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42119237/

上一篇：machine-learning - Tensorflow:分离 TFRecords 中的训练和评估数据

下一篇：machine-learning - 如何获取OpenNLP模型的训练数据集？

python - 如何读取 brat 注释收费提供的 ann 文件并将它们转换为 python 中的数据框？

python - 如何使用 Gensim 在葡萄牙语中生成词嵌入？

python - 从文档术语矩阵计算前 n 个单词对共现

machine-learning - 半监督学习的现成包

python - 没有这样的文件或目录 : 'GoogleNews-vectors-negative300.bin'

python - Tensorflow:张量上的矩阵大小不兼容错误

python - 为什么推理过程中的输出大小与训练过程中的批量大小相关？

machine-learning - 如何避免训练数据的过度拟合？

python - python 上的 gensim Word2Vec 的不同模型