yahoo - 雅虎! LDA实现问题

标签 yahoo lda topic-modeling

所有,

我一直在一组文档上运行Y!LDA(https://github.com/shravanmn/Yahoo_LDA),结果看起来不错(或至少达到我的期望)。现在,我想使用产生的主题对语料库执行反向查询。有人知道该learntopics可执行文件运行后生成的3个人类可读文本文件是否是该库的最终输出?如果是这样,那是我执行查询需要解析的内容吗?这时我的肩膀有点耸耸肩。

谢谢,
亚当

最佳答案

如果LDA以我认为的方式工作(我使用Java实现,因此解释可能有所不同),那么您得到的是以下三点:

  • P(word,concept)-给定一个概念得到一个单词的概率因此,当LDA完成找出语料库中存在哪些概念时,此P(w,c)(理论上)将告诉您哪些单词映射到哪些概念。

    确定概念的一种非常幼稚的方法是将文件加载到矩阵中,然后以某种方法(加,乘,均方根)对测试文档的所有可能概念组合所有这些概率,并对概念进行排名。

    请注意,上述方法无法识别由LDA中表现不佳的主题或主导主题引起的各种偏差。为了适应这种情况,您需要更复杂的算法(例如,Gibbs采样),但这会为您带来一些结果。
  • P(concept,document)-如果您试图在语料库的文档中找到内在概念,则可以在这里查找。您可以将这些文档用作具有特定概念分布的文档的示例,并将您的文档与LDA语料库文档进行比较...虽然有一些用途,但它可能不如P(w,c)有用。
  • 其他可能与单词,文档或概念的权重有关的东西。这可以像一组带有beta权重的概念示例(对于概念)一样简单,也可以从LDA输出一些其他变量。这些可能重要,也可能不重要,具体取决于您正在做什么。 (如果您尝试将文档具有Alpha或Beta值添加到LDA空间,则非常重要。)

  • 要回答“反向查找”问题,以确定测试文档的概念,请对测试文档中的每个单词w使用P(w,c)。

    要确定哪个文档与测试文档最相似,请确定上述概念,然后将它们与在P(c,d)中找到的每个文档的概念进行比较(使用每个概念作为向量空间中的维,然后确定余弦这两个文件之间的链接就可以正常工作)。

    要确定两个文档之间的相似性,与上面相同,只需确定两个概念向量之间的余弦。

    希望能有所帮助。

    关于yahoo - 雅虎! LDA实现问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7381272/

    相关文章:

    machine-learning - 文本处理,如何使用 LDA 分配 1 个主题 -> 1 个文档?

    api - 雅虎金融 API 股票返回股票期权数据吗?

    python - 网页抓取 : Yahoo provides dirtyurl instead of normal url

    java - 我在其主页上运行 JGibbLDA 演示时遇到错误

    python-3.x - 计算两个向量之间的相似度

    python - 包装器的 Gensim 模块属性错误

    php - Yahoo 发送 PM 算法

    c# - 带有 OAuthBase.cs 的雅虎 Oauth API

    r - 如何加速 R 中的主题模型?

    python - 理解 LDA/主题建模——主题重叠太多