python - gensim LDA : How can i generate topics with different words for each topic?

标签 python algorithm api lda gensim

我正在使用 gensim 包中的 LDA 算法来查找给定文本中的主题。

我被问到生成的主题将包含每个主题的不同词，例如，如果主题 A 中包含“猴子”一词，那么其他主题的列表中不应包含“猴子”一词。

到目前为止我的想法:多次运行它，每次都将前面的单词添加到停用词列表中。

自: A)我什至不确定算法/逻辑上这是正确的做法。 B) 我希望有一种我不知道的内置方法。 C) 这是一个大数据库，运行LDA大约需要20分钟每次(使用多核版本)。

问题:有更好的方法吗？

希望得到一些帮助，

谢谢。

最佳答案

LDA 为每个主题和每个词提供主题生成该词的概率。您可以尝试通过在所有主题中取最大概率来将单词分配给主题。换句话说，如果主题 A 以 0.01 的概率生成“monkey”，而主题 B 以 0.02 的概率生成单词 monkey，那么您可以将单词 monkey 分配给主题 B。

关于python - gensim LDA : How can i generate topics with different words for each topic?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31975754/

上一篇：java - 在 2D 区域中查找多边形

下一篇：r - 遗传算法中的处理约束 : implementing the death penalty

相关文章：

python - 如何将 python 站点迁移到另一台机器？

algorithm - 由列表中的单词组成的单词链

python - 提取两个括号之间的字符串，包括python中的嵌套括号

python - pyqt4的scrollArea事件和matplotlib的wheelEvent

c - 高级语言来为您的程序制作原型(prototype)？

json - Dart - HttpRequest.getString() 返回 JSON

json - 使用 API 从粉丝页面获取 Facebook 状态

apache - Sqoop2 Rest API链接创建

具有动态模型名称的 Python/Django 应用程序(应用程序重用)

algorithm - 如何用红黑树实现多重集？