python - 为什么在gensim word2vec中创建了多个模型文件?

标签 python word2vec gensim word-embedding

当我尝试创建一个 word2vec 模型(带有负采样的 skipgram)时,我收到了 3 个文件作为输出,如下所示。

word2vec (File)
word2vec.syn1nef.npy (NPY file)
word2vec.wv.syn0.npy (NPY file)

我只是担心为什么会发生这种情况,因为我之前在 word2vec 中的测试示例我只收到一个模型(没有 npy 文件)。

请帮帮我。

最佳答案

具有较大内部向量数组的模型无法通过 Python 的“pickle”保存到单个文件中,因此超过某个阈值时,gensim save() 方法会将辅助数组存储在单独的文件中文件,使用更高效的 numpy 数组原始格式(.npy 格式)。

您仍然可以通过指定根模型文件名来load() 模型;当需要辅助数组时,加载代码将找到辅助文件——只要它们保存在根文件旁边即可。因此,在将模型移动到别处时,请确保将具有相同根文件名的所有文件放在一起。

关于python - 为什么在gensim word2vec中创建了多个模型文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47173538/

相关文章:

python - PyVisa 和打印新数据

c++ - 基于Python的软件是否被认为不如C++/编译软件专业?

python - bottle.py 动态路由 URL 编码与非 ASCII 字符

python - 使用 gensim 的 Word2vec 训练在 10 万个句子后开始交换

deep-learning - 矩阵如何在 Hierarchical Softmax 模型中相乘?

python - FB edge.create 事件捕获时的多个请求

nlp - 在小文本文件上应用 word2vec

nlp - 如何在我自己的语料库上训练 GloVe 算法

Python gensim LDA : add the topic to the document after getting the topics

python - PyLDAvis 可视化与生成的主题不一致