algorithm - 没有链接的文档有哪些有用的排序算法?

标签 algorithm search machine-learning

我看过 Algorithms of the Intelligent Web描述(第 55 页)一个有趣的算法 - 称为 DocRank - 用于创建 PageRank比如商业文档的分数(即没有链接的文档,如 PDF、MS Word 文档等......)。简而言之,它分析集合中每个文档之间的词频交集。

其他任何人都可以确定其他地方描述的有趣算法,或者想在这里分享一些新颖的东西,以应用于这些类型的文档以改善搜索结果?

请放弃涉及点击跟踪或其他操作等内容的答案 不是 关于分析实际文件。

最佳答案

第一种技术:逐步相似性

我可以提供一个例子——我实际上已经针对真实数据进行了测试/验证。如果您要收集多种技术并沿两个轴对它们进行排名——固有的复杂性或易于实现和性能(分辨率或预测准确性),则该技术在第一个轴上会很高,在靠近中间的某个轴上第二;一种简单而有效的技术,但与最先进的技术相比可能表现不佳。

我们发现的组合低频关键词交集结合读者/观众之间的相似性是文档内容的一个相当强的预测器。换句话说:如果两个文档具有一组相似的极低频术语(例如,特定领域的术语,如“决策流形”等)并且它们具有相似的入站流量概况,则该组合强烈证明了相似性的文件。

相关详情:

第一个过滤器:低频项。我们解析了大量文档以获得每个文档的词频。我们使用这个词的频谱作为“指纹”,这是很常见的,但我们应用了反向加权,因此常见的术语(“a”、“of”、“the”)在相似性度量中很少计入,而罕见的术语很重要(这很常见,你可能知道)。

试图基于此来确定两个文档是否相似是有问题的;例如,两个文档可能共享一个与 MMO 相关的罕见术语列表,但这些文档仍然不相似,因为一个是针对 MMO 的,另一个是针对设计它们的。

第二个过滤器:读者。显然我们不知道谁读过这些文件,所以我们从流量来源推断读者群。您可以在上面的示例中看到这有什么帮助。 MMO 播放器站点/文档的入站流量反射(reflect)了内容,对于针对 MMO 设计的文档也是如此。


第二种技术:核主成分分析 (kPCA)

kPCA 是无监督技术(在传入数据之前从数据中删除类标签)。该技术的核心只是矩阵(在本例中为协方差矩阵)的基于特征向量的分解。这种技术通过内核技巧处理非线性,它只是将数据映射到更高维的特征空间,然后在该空间执行 PCA。在 Python/NumPy/SciPy 中,它大约有 25 行代码。

数据是从文学作品的非常简单的文本解析中收集的——特别是这四位作者的大部分已发表作品:莎士比亚、简奥斯汀、 jack 伦敦、弥尔顿。 (我相信,虽然我不确定,普通大学生会参加这些作者指定他们阅读小说的类(class)。)

该数据集广泛用于机器学习,并可从网络上的许多地方获得。

所以这些作品被分成了872篇(大致对应小说的章节);换句话说,四位作者中的每一位都有大约 220 条不同的实质性文本。

接下来对合并后的语料库文本进行词频扫描,选取最常用的 70 个词进行研究,其余的频率扫描结果被丢弃。

这70个字是:

[ 'a', 'all', 'also', 'an', 'and', 'any', 'are', 'as', 'at', 'be', 'been',
  'but', 'by', 'can', 'do', 'down', 'even', 'every', 'for', 'from', 'had',
  'has', 'have', 'her', 'his', 'if', 'in', 'into', 'is', 'it', 'its', 'may',
  'more', 'must', 'my', 'no', 'not', 'now', 'of', 'on', 'one', 'only', 'or', 
  'our', 'should', 'so', 'some', 'such', 'than', 'that', 'the', 'their', 
  'then', 'there', 'things', 'this', 'to', 'up', 'upon', 'was', 'were', 'what',
  'when', 'which', 'who', 'will', 'with', 'would', 'your', 'BookID', 'Author' ]

这些成为字段(列)名称。最后,准备了与872个文本对应的一行数据(来自截断词频扫描)。这是其中一个数据点:
[ 46, 12, 0, 3, 66, 9, 4, 16, 13, 13, 4, 8, 8, 1, 0, 1, 5, 0, 21, 12, 
  16, 3, 6, 62, 3, 3, 30, 3, 9, 14, 1, 2, 6, 5, 0, 10, 16, 2, 54, 7, 8,
  1, 7, 0, 4, 7, 1, 3, 3, 17, 67, 6, 2, 5, 1, 4, 47, 2, 3, 40, 11, 7, 5,
  6, 8, 4, 9, 1, 0, 1 ]

总之,数据由 70 个维度组成(每个维度是在这四位作者之一的给定文本中特定单词的频率或总数。

同样,虽然这些数据主要用于监督分类(类标签的存在是有原因的),但我使用的技术是 无人监督 -- 换句话说,我从未向算法显示类标签。 kPCA 算法完全不知道这四个不同的集群(如下图所示)对应什么,也不知道每个集群之间有何不同——该算法甚至不知道数据由多少组(类)组成。我只是给了它数据,它根据固有的顺序将它非常整齐地划分为四个不同的组。

结果:alt text

同样,我在这里使用的算法是 kPCA。使用 Python、NumPy 和 Matplotlib,产生这些结果的脚本大约有 80 行代码——用于 IO、数据处理、应用 kPCA 和绘制结果。

不多,但对于 SO 帖子来说太多了。无论如何,任何想要此代码的人都可以从我的仓库中获取。同时,在这些python包中的每一个(都可以从mloss.org获得)中,还有一个完整的、有据可查的kPCA算法,用python + numpy编码:将军 ('大型机器学习工具箱'),' sdpy (一组针对计算机视觉和机器学习的模块)和 mlpy ('PYthon 中的机器学习')。

关于algorithm - 没有链接的文档有哪些有用的排序算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4362569/

相关文章:

Python 的 random.shuffle 限制

java - 在 SearchView 中限制 onQueryTextChange

machine-learning - 是否认为对具有完美属性的决策树过度拟合?

machine-learning - 使用负采样实现 word2vec

java - 求该函数的循环不变量

algorithm - ASCII 艺术图像转换算法如何工作?

python - 偏序排序?

java - 在字符串中找到多个针的最佳方法

java - 排序列表时在列表中查找值的最佳方法

python - CoreML - 多数组输入需要在应用程序或模型中进行预处理?