python - 我应该使用哪个 gensim 语料库类来加载 LDA 转换后的语料库? - Python

标签 python nlp corpus lda gensim

我如何从 python 的 gensim 加载经过 LDA 转换的语料库?我试过的方法:

from gensim import corpora, models
import numpy.random
numpy.random.seed(10)

doc0 = [(0, 1), (1, 1)]
doc1 = [(0,1)]
doc2 = [(0, 1), (1, 1)]
doc3 = [(0, 3), (1, 1)]

corpus = [doc0,doc1,doc2,doc3]
dictionary = corpora.Dictionary(corpus)

tfidf = models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
corpus_tfidf.save('x.corpus_tfidf')

# To access the tfidf fitted corpus i've saved i used corpora.MmCorpus.load()
corpus_tfidf = corpora.MmCorpus.load('x.corpus_tfidf')

lda = models.ldamodel.LdaModel(corpus_tfidf, id2word=dictionary, num_topics=2)
corpus_lda = lda[corpus]
corpus_lda.save('x.corpus_lda')

for i,j in enumerate(corpus_lda):
  print j, corpus[i]

上面的代码会输出:

[(0, 0.54259038344543631), (1, 0.45740961655456358)] [(0, 1), (1, 1)]
[(0, 0.56718063124157458), (1, 0.43281936875842542)] [(0, 1)]
[(0, 0.54255407573666647), (1, 0.45744592426333358)] [(0, 1), (1, 1)]
[(0, 0.75229707773868093), (1, 0.2477029222613191)] [(0, 3), (1, 1)]

# [(<topic_number_from x.corpus_lda model>, 
#   <probability of this topic for this document>), 
#  (<topic# from lda model>, <prob of this top for this doc>)] [<document[i] from corpus>]

如果我想加载保存的 LDA 转换语料库,我应该使用 gensim 中的哪个类来加载?

我试过使用 corpora.MmCorpus.load(),它没有给我如上所示的转换语料库的相同输出:

>>> lda_corpus = corpora.MmCorpus.load('x.corpus_lda')
>>> for i,j in enumerate(lda_corpus):
...   print j, corpus[i]
... 
[(0, 0.55087839240547309), (1, 0.44912160759452685)] [(0, 1), (1, 1)]
[(0, 0.56715974584850259), (1, 0.43284025415149735)] [(0, 1)]
[(0, 0.54275680271070581), (1, 0.45724319728929413)] [(0, 1), (1, 1)]
[(0, 0.75233330695720912), (1, 0.24766669304279079)] [(0, 3), (1, 1)]

最佳答案

您的代码中还有更多问题。

要以 MatrixMarket 格式保存语料库,您需要

corpora.MmCorpus.serialize('x.corpus_lda', corpus_lda)

文档是 here .

您在 corpus_tfidf 上进行训练,但随后仅转换 lda[corpus](无 tfidf)。使用 tfidf 或普通的词袋,但始终如一地使用它。

关于python - 我应该使用哪个 gensim 语料库类来加载 LDA 转换后的语料库? - Python,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15184655/

相关文章:

python - 使用 Python 在每行的第一个和第二个单词后插入逗号?

nlp - WordPiece 标记化如何帮助有效处理 NLP 中的稀有词问题?

r - R中的词云+语料库错误

html - 从 R 中的许多 html 文件创建语料库

python - C 中是否有类似 python 的 inspect 的库?

python - 使用 Python 解密时,ROT2 密码会产生与预期不同的字符

postgresql - 在 PostgreSQL 9.4 中通过 ts_vector 中的出现次数查询词素

python - 使用 NLTK 创建新语料库

python - 在 matplotlib 中绘制矢量化文本文档?

python - 将 Pandas Dataframe 转换为自定义嵌套 JSON