我想知道如何在生产中部署 doc2vec 模型来创建词向量作为分类器的输入特征。具体来说,doc2vec 模型在语料库上进行训练,如下所示。
dataset['tagged_descriptions'] = datasetf.apply(lambda x: doc2vec.TaggedDocument(
words=x['text_columns'], tags=[str(x.ID)]), axis=1)
model = doc2vec.Doc2Vec(vector_size=100, min_count=1, epochs=150, workers=cores,
window=5, hs=0, negative=5, sample=1e-5, dm_concat=1)
corpus = dataset['tagged_descriptions'].tolist()
model.build_vocab(corpus)
model.train(corpus, total_examples=model.corpus_count, epochs=model.epochs)
然后将其转储到 pickle 文件中。词向量用于训练分类器(例如随机森林)来预测电影情绪。
现在假设在生产中,有一个文档包含一些全新的词汇表。话虽如此,他们并不在 doc2vec 模型训练期间在场的人中。我想知道如何处理这样的情况。
顺便说一句,我知道 Updating training documents for gensim Doc2Vec model和 Gensim: how to retrain doc2vec model using previous word2vec model 。然而,我希望能对此事有更多的了解。
最佳答案
Doc2Vec 模型只能报告训练期间存在的文档的经过训练的向量,并且只能infer_vector()
新的文档向量对于包含训练期间出现的单词的文本。 (传递给 .infer_vector()
的无法识别的单词将被忽略,类似于训练期间忽略出现次数少于 min_count
次的任何单词。)
如果随着时间的推移,您获得了许多包含新词汇的新文本,并且这些单词很重要,您将不得不偶尔重新训练 Doc2Vec
模型。而且,重新训练后,重新训练模型中的文档向量通常无法与原始模型中的文档向量进行比较,因此使用文档向量的下游分类器和其他应用程序也需要更新。
您自己的生产/部署要求将决定重新训练的频率以及用新模型替换旧模型的频率。
(虽然 Doc2Vec
模型可以随时输入新的训练数据,但增量式地进行这种“微调”会带来新旧数据之间平衡的棘手问题。而且,没有官方的 gensim 支持扩展 Doc2Vec 模型的现有词汇。因此,最可靠的方法是使用所有可用数据从头开始重新训练。)
关于示例训练代码的一些旁注:
min_count=1
很少是一个好主意:罕见的单词通常会充当“噪音”,没有足够的使用示例来很好地建模,因此“噪音”只会减慢速度/干扰可以从更常见的单词中学习的模式dm_concat=1
最好被视为实验/高级模式,因为它使模型明显更大且训练速度更慢,但其好处尚未得到证实。许多已发表的作品仅使用 10-20 个训练周期;较小的数据集或较小的文档有时会受益更多,但 150 可能会花费大量时间,而边际效益却很小。
关于python - 如何在生产中使用doc2vec模型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58069724/