python - Bertopic 将主题分配给数据框

标签 python text-classification bert-language-model topic-modeling

我已经用 Bertopic 构建了一个主题模型。 获得主题后,我如何将它们分配给数据集。

我的主要目标是将无监督主题建模转换为有监督多标签分类问题。

最佳答案

您可以直接使用数据框中的原始数据集编写主题,因为主题的输出顺序与文档中包含的顺序相同。

import pandas as pd 
model =  BERTopic.load('path')
df = pd.DataFrame({ 'topic': model.topics_,'document': docs['id']})

关于python - Bertopic 将主题分配给数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74151249/

相关文章:

python - 如何使用 spark 朴素贝叶斯分类器对 IDF 进行文本分类?

nlp - 使用encode_plus方法时 token 索引序列长度错误

tensorflow - 文本分类问题

deep-learning - 用于序列二元分类的 RNN

nlp - 如何在给定上下文的情况下获得句子中特定标记(单词)的概率

tensorflow - 如何从 TF Hub 获取 Bert tokenizer 的 vocab 文件

python - 将相应列的标题放入 python 中(不使用 pandas)

python - 如何在 Python 中忽略词云中的某些词?

python - 如何在 django 中为表的 char 列设置编码?

python - 在 Shopify 应用程序的 Django HttpResponse 对象中设置 Content-Type