python - 从未经训练的数据集中为 doc2vec 中的句子构建向量

标签 python machine-learning nlp gensim word2vec

我有一个根据我的数据构建的 doc2vec 模型,现在我在运行时有一个不属于训练数据集的新句子。

如何从我的模型中构建或预测这句话的向量?

我该如何处理这句话中的生词?

最佳答案

Gensim(开发版)似乎有一种推断新句子向量的方法。查看 https://github.com/gojomo/gensim/blob/develop/gensim/models/doc2vec.py 中的 model.infer_vector(NewDocument) 方法

关于python - 从未经训练的数据集中为 doc2vec 中的句子构建向量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32796485/

相关文章:

python - 使用 DBSCAN 找到最密集的集群?

R:使用自定义内核(用户定义内核)的 SVM 性能在 kernlab 中不起作用

python - 如何绘制仅具有一个特征的 svm 超平面

algorithm - 如何使用非单词标记识别文本中的单词?

nlp - 斯坦福 NLP 解析树格式

python - 如何保持键/值与声明的顺序相同?

Python 3 : Output R, G,B 到 CSV - 索引错误:图像索引超出范围

machine-learning - 具有多个掩模的 U-Net 图像分割

java - 自然语言处理 - 文本分类的特征

python - numpy -- 将非连续数据转换为连续数据