machine-learning - 是否可以为 scikit-learn LDA 设置初始主题分配？

我不想将 topic_word_prior 设置为参数，而是想根据预定义的单词分布来初始化主题。我如何在 sklearn 的实现中设置这个初始主题分布？如果不可能，是否有更好的实现可以考虑？

最佳答案

如果您在预训练模型中有预定义的单词分布，则只需将 Bow_corpus 作为函数传递到该分布即可。 Gensims LDA 和 LDAMallet 都可以训练一次，然后您可以传递新的数据集进行分配，而无需更改主题。

步骤:

创建字典

dictionary = gensim.corpora.Dictionary(processed_docs[:])
dictionary.filter_extremes(no_below=15, no_above=0.5, keep_n=100000)

定义弓语料库

bow_corpus = [dictionary.doc2bow(doc) for doc in processed_docs]

训练您的模型 - 如果已经训练过则跳过

ldamallet = gensim.models.wrappers.LdaMallet(mallet_path, 
            corpus=bow_corpus, num_topics=15, id2word=dictionary)

通过模型传递新数据，如下所示:

  ldamallet[bow_corpus_new[:len(bow_corpus_new)]]

关于machine-learning - 是否可以为 scikit-learn LDA 设置初始主题分配？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55753444/

相关文章：

algorithm - 用于估计分数的分类算法