statistics - 主题数量未知的潜在狄利克雷分配

标签 statistics machine-learning artificial-intelligence

我正在寻找一种类似于 LDA 的技术,但不知道有多少“混合物”是最佳的 - 有什么可以做到这一点吗?

最佳答案

有两种方法可以解决这个问题,一种方法很简单但很简单;另一种方法很简单。另一个动机更好,但更复杂。从前者开始,人们可以简单地尝试一系列k(主题数量),并比较每个主题下观察到的数据的可能性。您可能希望对较大数量的主题进行惩罚,具体取决于您的情况,或者您可以明确地对 k 进行先验分布(即,以主观预期的集群数量为中心的正态分布)。无论如何,您只需选择使可能性最大化的k

更有原则的方法是使用贝叶斯非参数,尤其是在主题模型的情况下使用狄利克雷过程。看看this paper 。我相信有一个可用的实现 here ,虽然我没有深入研究过。

关于statistics - 主题数量未知的潜在狄利克雷分配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12852506/

相关文章:

java - 统计计算

machine-learning - 在 PyTorch 中使用 WeightedRandomSampler

python - 如何查找与 KMeans 在同一集群中的文档

image-processing - 医学图像分割需要像素值归一化吗?

statistics - 如何计算 libre office calc 4 中范围之间的实例

c# - 如何使用C#收集网络统计信息,例如Ping ms,下载速率,数据包丢失

安装软件包时出现 R 错误(summarytools)

python - Python 中的神经网络 - 权重矩阵形状和反向传播遇到问题

python - 为支持向量机 reshape ndarray

python - 我自己的 Python OCR 程序