我正在寻找一种类似于 LDA 的技术,但不知道有多少“混合物”是最佳的 - 有什么可以做到这一点吗?
最佳答案
有两种方法可以解决这个问题,一种方法很简单但很简单;另一种方法很简单。另一个动机更好,但更复杂。从前者开始,人们可以简单地尝试一系列k(主题数量),并比较每个主题下观察到的数据的可能性。您可能希望对较大数量的主题进行惩罚,具体取决于您的情况,或者您可以明确地对 k 进行先验分布(即,以主观预期的集群数量为中心的正态分布)。无论如何,您只需选择使可能性最大化的k。
更有原则的方法是使用贝叶斯非参数,尤其是在主题模型的情况下使用狄利克雷过程。看看this paper 。我相信有一个可用的实现 here ,虽然我没有深入研究过。
关于statistics - 主题数量未知的潜在狄利克雷分配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12852506/