nlp - 如何在我自己的语料库上训练 GloVe 算法

标签 nlp stanford-nlp gensim word2vec glove

我试着关注 this.
但有些是我浪费了很多时间，结果却没有任何用处。
我只想训练一个 GloVe在我自己的语料库上建模(~900Mb corpus.txt 文件)。
我下载了上面链接中提供的文件并使用 cygwin 编译它(编辑 demo.sh 文件并将其更改为 VOCAB_FILE=corpus.txt 后。我应该保持 CORPUS=text8 不变吗？)
输出是:

cooccurrence.bin

cooccurrence.shuf.bin

text8

语料库.txt

向量.txt

我如何使用这些文件将其加载为 GloVe python上的模型？

最佳答案

You can do it using GloVe library:

安装它:pip install glove_python

然后:

from glove import Corpus, Glove

#Creating a corpus object
corpus = Corpus() 

#Training the corpus to generate the co occurence matrix which is used in GloVe
corpus.fit(lines, window=10)

glove = Glove(no_components=5, learning_rate=0.05) 
glove.fit(corpus.matrix, epochs=30, no_threads=4, verbose=True)
glove.add_dictionary(corpus.dictionary)
glove.save('glove.model')

引用:word vectorization using glove

关于nlp - 如何在我自己的语料库上训练 GloVe 算法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48962171/

上一篇：r - 在选项卡式部分调整桑基图

下一篇：Yii:通过每个用户的站点配置最大化代码重用

相关文章：

scikit-learn - 欧几里德距离是否衡量语义相似性？

algorithm - 解码排列的英文字符串

text - 用于文本分类的 SVM - 机器学习教程？我该如何开始？

python - 如何在 gensim 中使用 mallet 设置主题模型的随机种子？

java - 简单的 scala 程序给出错误 : java. lang.InknownClassChangeError

JAVA:如何将 Gazettes 与 Stanford NLP 结合使用？

python - 训练有素的 word2vec 模型词汇表中缺少的单词

python - 解析 penn 语法树以提取其语法规则

python - 斯坦福大学对 Python NLTK 的普遍依赖

java程序使用斯坦福解析器获取句子的解析分数