nlp - 重建现在著名的 17 岁男孩基于马尔可夫链的信息检索算法 "Apodora"

标签 nlp machine-learning information-retrieval markov-chains

当我们都在百思不得其解时,一名 17 岁的加拿大男孩显然发现了一种信息检索算法:

a) 的执行精度是当前广泛使用的向量空间模型的两倍

b) 在识别相似单词方面“相当准确”。

c) 使微搜索更加准确

这是一个很好的interview .

不幸的是,我还没有找到已发表的论文,但是,从我几年前参加的图形模型和机器学习类(class)中记得的片段来看,我认为我们应该能够从他提交的摘要中重建它,以及他在采访中对此的说法。

采访内容:

Some searches find words that appear in similar contexts. That’s pretty good, but that’s following the relationships to the first degree. My algorithm tries to follow connections further. Connections that are close are deemed more valuable. In theory, it follows connections to an infinite degree.

摘要将其置于上下文中:

A novel information retrieval algorithm called "Apodora" is introduced, using limiting powers of Markov chain-like matrices to determine models for the documents and making contextual statistical inferences about the semantics of words. The system is implemented and compared to the vector space model. Especially when the query is short, the novel algorithm gives results with approximately twice the precision and has interesting applications to microsearch.

我觉得了解马尔可夫链矩阵或信息检索的人会立即意识到他在做什么。

那么:他在做什么?

最佳答案

从使用“上下文”等词以及他引入了二阶统计依赖性的事实来看,我怀疑他正在做一些与论文中概述的 LDA-HMM 方法相关的事情:Griffiths, T., Steyvers 、M.、Blei, D. 和 Tenenbaum, J. (2005)。整合主题和语法。神经信息处理系统的进展。由于模型平均,搜索分辨率存在一些固有的限制。然而,我很羡慕 17 岁时能做这样的事情,我希望他能独立地做一些事情,至少能做得更好。即使同一主题有不同的方向也会很酷。

关于nlp - 重建现在著名的 17 岁男孩基于马尔可夫链的信息检索算法 "Apodora",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6967792/

相关文章:

statistics - 学习最佳参数以最大化奖励

machine-learning - Tensorflow - CPU 和 GPU 资源耗尽错误

wordpress - 在 PayPal 付款期间存储信息以供日后处理

nlp - 如何将词嵌入和 pos 嵌入结合在一起来构建分类器

python - Python 中二元输出拆分算法的优化

python - 在 python 中每次运行随机森林、非线性 SVC 和多项式 NB 时获得不同的准确度以进行文本分类

mean - 关于(平均)平均精度的困惑

java - 斯坦福核心Nlp无效最大堆大小错误

python - 如何更新 nltk 包以便它不会将电子邮件分成 3 个不同的标记?