python scikit学习,在LDA中获取每个主题的文档

标签 python machine-learning lda topic-modeling

我正在对文本数据执行 LDA,使用示例 here : 我的问题是:
我如何知道哪些文档对应于哪个主题? 换句话说,例如讨论主题 1 的文档是什么?

这是我的步骤:

n_features = 1000
n_topics = 8
n_top_words = 20

我逐行阅读我的文本文件:

with open('dataset.txt', 'r') as data_file:
    input_lines = [line.strip() for line in data_file.readlines()]
    mydata = [line for line in input_lines]

打印主题的函数:

def print_top_words(model, feature_names, n_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print("Topic #%d:" % topic_idx)
        print(" ".join([feature_names[i]
                        for i in topic.argsort()[:-n_top_words - 1:-1]]))                        

    print()

对数据进行矢量化:

tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, token_pattern='\\b\\w{2,}\\w+\\b',
                                max_features=n_features,
                                stop_words='english')
tf = tf_vectorizer.fit_transform(mydata)

初始化LDA:

lda = LatentDirichletAllocation(n_topics=3, max_iter=5,
                                learning_method='online',
                                learning_offset=50.,
                                random_state=0)

在 tf 数据上运行 LDA:

lda.fit(tf)

使用上面的函数打印结果:

print("\nTopics in LDA model:")
tf_feature_names = tf_vectorizer.get_feature_names()

print_top_words(lda, tf_feature_names, n_top_words)

打印的输出是:

Topics in LDA model:
Topic #0:
solar road body lamp power battery energy beacon
Topic #1:
skin cosmetic hair extract dermatological aging production active
Topic #2:
cosmetic oil water agent block emulsion ingredients mixture

最佳答案

您需要对数据进行转换:

doc_topic = lda.transform(tf)

并像这样列出文档及其得分最高的主题:

for n in range(doc_topic.shape[0]):
    topic_most_pr = doc_topic[n].argmax()
    print("doc: {} topic: {}\n".format(n,topic_most_pr))

关于python scikit学习,在LDA中获取每个主题的文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45145368/

相关文章:

Python - 一种实例化类而不分配它的方法?

python - 在 Python 中根据日期创建唯一 ID

r - R 中的removeSparseTerms 如何工作?

python - 使用 Python 和 OpenCV 实现万花筒效果

python - 包含 Django 应用程序的 url.py 会导致 404

python - 在 sklearn 中持久化数据

python - DataFrame 无法通过 : getting following error: tuple indices must be integers or slices, 而不是 str 进行迭代

python - Pytorch model.train() 和教程中编写的单独的 train() 函数

python - 如何将主导主题、贡献百分比和主题关键词返回到原始模型

nlp - 连贯性分数(u_mass)-18 是好是坏?