statistics - 主题数量未知的潜在狄利克雷分配

标签 statistics machine-learning artificial-intelligence

我正在寻找一种类似于 LDA 的技术，但不知道有多少“混合物”是最佳的 - 有什么可以做到这一点吗？

最佳答案

有两种方法可以解决这个问题，一种方法很简单但很简单；另一种方法很简单。另一个动机更好，但更复杂。从前者开始，人们可以简单地尝试一系列k(主题数量)，并比较每个主题下观察到的数据的可能性。您可能希望对较大数量的主题进行惩罚，具体取决于您的情况，或者您可以明确地对 k 进行先验分布(即，以主观预期的集群数量为中心的正态分布)。无论如何，您只需选择使可能性最大化的k。

更有原则的方法是使用贝叶斯非参数，尤其是在主题模型的情况下使用狄利克雷过程。看看this paper 。我相信有一个可用的实现 here ，虽然我没有深入研究过。

关于statistics - 主题数量未知的潜在狄利克雷分配，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12852506/

上一篇：machine-learning - 计算多个分类器的分数

下一篇：machine-learning - 如何选择假设函数的阶数？

相关文章：

java - 统计计算

machine-learning - 在 PyTorch 中使用 WeightedRandomSampler

python - 如何查找与 KMeans 在同一集群中的文档

image-processing - 医学图像分割需要像素值归一化吗？

statistics - 如何计算 libre office calc 4 中范围之间的实例

c# - 如何使用C#收集网络统计信息，例如Ping ms，下载速率，数据包丢失

安装软件包时出现 R 错误(summarytools)

python - Python 中的神经网络 - 权重矩阵形状和反向传播遇到问题

python - 为支持向量机 reshape ndarray

python - 我自己的 Python OCR 程序