python - 矢量化新文本数据

标签 python vectorization text-mining word-embedding nlp

我在“棕色语料库”上训练了一个 Word2vec 模型。

我想将矢量化单词应用到一个新的文本文档,然后我想通过亲和性传播的方式对其句子进行聚类。

import gensim
import nltk
from nltk.corpus import brown

sentences = brown.sents()
model = gensim.models.Word2Vec(sentences, min_count=1)
model.save('brown_model')

model = gensim.models.Word2Vec.load('brown_model')

我的文本文档包含请求列表,例如:

"I want to go to the store"

"I want the president to help me"

"Clean up my house"

我的问题是:

如何将矢量化的 Brown 语料库 应用到我自己的文本数据以用于后续聚类目的?

最佳答案

如果我很好地理解后续聚类目的的问题可以像这样解决:

words = set(brown.words())
print (len(words))
...
word_presented = words.intersection(model.vocab.keys())

看看this article

关于python - 矢量化新文本数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54713844/

相关文章:

python - 如何在不使用 Scikit-Learn 对归一化数据执行回归后检索原始系数?

python - 在 Python 中向量化多维函数

python - Numpy 矢量化和加速

python - 过滤图像中补丁位置的最优化方法

apache-spark - 基于 Apache Spark 朴素贝叶斯的文本分类

python - 使用字典替换数据框中的互联网首字母缩略词

r - R tm 文本挖掘中的自冲突停用词

google-app-engine - 惯用列表包装器

python - filter() 是否在 python 中就地工作?

python - 投资组合优化 : how to maximize return while subject to target risk using cvxopt.solver.qp?