我在“棕色语料库”上训练了一个 Word2vec
模型。
我想将矢量化单词应用到一个新的文本文档,然后我想通过亲和性传播
的方式对其句子进行聚类。
import gensim
import nltk
from nltk.corpus import brown
sentences = brown.sents()
model = gensim.models.Word2Vec(sentences, min_count=1)
model.save('brown_model')
model = gensim.models.Word2Vec.load('brown_model')
我的文本文档包含请求列表,例如:
"I want to go to the store"
"I want the president to help me"
"Clean up my house"
我的问题是:
如何将矢量化的 Brown 语料库
应用到我自己的文本数据以用于后续聚类目的?
最佳答案
如果我很好地理解后续聚类目的的问题可以像这样解决:
words = set(brown.words())
print (len(words))
...
word_presented = words.intersection(model.vocab.keys())
关于python - 矢量化新文本数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54713844/