当我尝试创建一个 word2vec 模型(带有负采样的 skipgram)时,我收到了 3 个文件作为输出,如下所示。
word2vec (File)
word2vec.syn1nef.npy (NPY file)
word2vec.wv.syn0.npy (NPY file)
我只是担心为什么会发生这种情况,因为我之前在 word2vec 中的测试示例我只收到一个模型(没有 npy 文件)。
请帮帮我。
最佳答案
具有较大内部向量数组的模型无法通过 Python 的“pickle”保存到单个文件中,因此超过某个阈值时,gensim save()
方法会将辅助数组存储在单独的文件中文件,使用更高效的 numpy 数组原始格式(.npy
格式)。
您仍然可以通过指定根模型文件名来load()
模型;当需要辅助数组时,加载代码将找到辅助文件——只要它们保存在根文件旁边即可。因此,在将模型移动到别处时,请确保将具有相同根文件名的所有文件放在一起。
关于python - 为什么在gensim word2vec中创建了多个模型文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47173538/