yahoo - 雅虎! LDA实现问题

所有，

我一直在一组文档上运行Y!LDA(https://github.com/shravanmn/Yahoo_LDA)，结果看起来不错(或至少达到我的期望)。现在，我想使用产生的主题对语料库执行反向查询。有人知道该learntopics可执行文件运行后生成的3个人类可读文本文件是否是该库的最终输出？如果是这样，那是我执行查询需要解析的内容吗？这时我的肩膀有点耸耸肩。

谢谢，
亚当

最佳答案

如果LDA以我认为的方式工作(我使用Java实现，因此解释可能有所不同)，那么您得到的是以下三点:

P(word，concept)-给定一个概念得到一个单词的概率因此，当LDA完成找出语料库中存在哪些概念时，此P(w，c)(理论上)将告诉您哪些单词映射到哪些概念。

确定概念的一种非常幼稚的方法是将文件加载到矩阵中，然后以某种方法(加，乘，均方根)对测试文档的所有可能概念组合所有这些概率，并对概念进行排名。

请注意，上述方法无法识别由LDA中表现不佳的主题或主导主题引起的各种偏差。为了适应这种情况，您需要更复杂的算法(例如，Gibbs采样)，但这会为您带来一些结果。

P(concept，document)-如果您试图在语料库的文档中找到内在概念，则可以在这里查找。您可以将这些文档用作具有特定概念分布的文档的示例，并将您的文档与LDA语料库文档进行比较...虽然有一些用途，但它可能不如P(w，c)有用。

其他可能与单词，文档或概念的权重有关的东西。这可以像一组带有beta权重的概念示例(对于概念)一样简单，也可以从LDA输出一些其他变量。这些可能重要，也可能不重要，具体取决于您正在做什么。 (如果您尝试将文档具有Alpha或Beta值添加到LDA空间，则非常重要。)

要回答“反向查找”问题，以确定测试文档的概念，请对测试文档中的每个单词w使用P(w，c)。

要确定哪个文档与测试文档最相似，请确定上述概念，然后将它们与在P(c，d)中找到的每个文档的概念进行比较(使用每个概念作为向量空间中的维，然后确定余弦这两个文件之间的链接就可以正常工作)。

要确定两个文档之间的相似性，与上面相同，只需确定两个概念向量之间的余弦。

希望能有所帮助。

关于yahoo - 雅虎! LDA实现问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7381272/

yahoo - 雅虎! LDA实现问题

上一篇：ios - 有什么方法可以检查 SKSpriteNode 是否已从父级中删除？

下一篇：ios - 使用带有替换函数的正则表达式替换