我正在处理一个稳定增长的语料库。我使用用 Python 实现的 Doc2Vec 来训练我的文档向量。
是否可以更新文档向量?
我想使用文档向量进行文档推荐。
最佳答案
单个向量可以更新,但是 gensim
Doc2Vec
模型类没有太多支持向其自身添加更多文档向量。
但是,它可以通过 .infer_vector(words)
方法返回与现有向量兼容(可比较)的新文本的单独向量。您可以将这些向量保留在您自己的数据结构中以供查找。
当有足够多的新文档到达时,您认为您的核心模型会更好,如果对所有文档进行训练,您可以使用所有可用数据重新训练模型,将其用作 .infer_vector( )
。 (请注意,重新训练模型中的向量通常不会与先前模型中的向量兼容/比较:每个训练 session 都会引导不同的自洽坐标空间。)
关于python - 是否可以更新 Doc2Vec 矢量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60307249/