我正在使用 gensim 包中的 LDA 算法来查找给定文本中的主题。
我被问到生成的主题将包含每个主题的不同词,例如,如果主题 A 中包含“猴子”一词,那么其他主题的列表中不应包含“猴子”一词。
到目前为止我的想法:多次运行它,每次都将前面的单词添加到停用词列表中。
自: A)我什至不确定算法/逻辑上这是正确的做法。 B) 我希望有一种我不知道的内置方法。 C) 这是一个大数据库,运行LDA大约需要20分钟 每次(使用多核版本)。
问题:有更好的方法吗?
希望得到一些帮助,
谢谢。
最佳答案
LDA 为每个主题和每个词提供主题生成该词的概率。您可以尝试通过在所有主题中取最大概率来将单词分配给主题。换句话说,如果主题 A 以 0.01 的概率生成“monkey”,而主题 B 以 0.02 的概率生成单词 monkey,那么您可以将单词 monkey 分配给主题 B。
关于python - gensim LDA : How can i generate topics with different words for each topic?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31975754/