machine-learning - 我们怎么知道狄利克雷分布描述的是主题而不是其他东西？

我读到了这个article那:

Different Dirichlet distributions can be used to model documents by different authors or documents on different topics.

那么我们如何判断它是否是针对不同作者或不同主题的建模呢？这很重要，因为在文档聚类任务中，它直接决定了聚类结果的语义。

而且我发现将建模的可能方面仅限于作者或主题过于主观。由于似乎没有强有力的证据支持某个特定方面，因此它可能是任何其他潜在/潜在方面。

有人能解释一下吗？

最佳答案

听起来您在考虑 LDA 时犯了一个常见错误。

LDA不是一种文档聚类方法。考虑到模型，任何将主题分配给文档的尝试都是不正确的；事实上，任何将主题分配给单词的尝试也是不正确的。相反，LDA 是一种查看文档集合以及查看主题在这些文档中混合方式的方法。换句话说，每个文档没有一个主题，它具有多个主题的分布。这并不是不确定文档属于哪个主题，而是不确定该文档中使用的主题的比例。给定一个文档，您可以计算该文档中主题混合的分布；给定一个文档集合，您可以推断出每个文档中的混合内容以及最能描述该集合的主题。每个单词还不确定它来自哪个主题，因为根据定义，每个主题都可以发出每个可能的单词，但它们的发出更有可能来自某些主题，而不是其他主题。

回答您关于主题是否反射(reflect)作者、主题、风格、注册或其他内容的原始问题:主题不明确代表其中任何一个。它们代表单词的分组。每个主题都是词汇表的分布，因此不同的主题代表不同的词语使用倾向:在同质作者但异质主题的集合中，这些可能对应于“主题”(即主题)的直观概念；在异质作者但同质主题的集合中，也许不同的主题会与不同的作者相关。在混合主题、作者、语域、流派等的集合中，它们可能根本不对应于任何可观察到的特征。

相反，主题是一个抽象结构，所有最终主题都会告诉您什么是最好的主题，允许您在假设模型正确的情况下重建原始输入。可悲的事实是，这可能与您想要的主题对应的内容不符，因为您真正感兴趣的事物(例如作者身份)与您不感兴趣的其他事物共变(注册、主题、流派)在您提供的集合中。除非你明确标记所有可能导致词汇使用变化的因素(如词袋模型中所表达的那样)，然后设计一个模型来解释所有这些因素(肯定不是普通的 LDA)，否则你根本就不会这样做。无法保证引发的主题与您关心的维度上的分组之间的对应关系。

关于machine-learning - 我们怎么知道狄利克雷分布描述的是主题而不是其他东西？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21954213/

machine-learning - 我们怎么知道狄利克雷分布描述的是主题而不是其他东西？

上一篇：python - Scikit learn - 使用 numpy.float32 初始化 DictVectorizer

下一篇：python - 为什么使用 scikit-learn 的 GradientBoostingRegressor 从相同的输入中得到不同的输出？