machine-learning - StumbleUpon 推荐引擎的架构和基本组件

我想知道stumbleupon如何为其用户推荐文章？。

它是使用神经网络或某种机器学习算法，还是实际上根据用户“喜欢”的内容推荐文章，或者只是根据兴趣区域中的标签推荐文章？我的意思是使用标签，使用基于项目的协作过滤等？

最佳答案

首先，我对 S/U 的推荐引擎一无所知。我所知道的是，我通过过去几年关注这个主题以及研究公开来源(包括 StumbleUpon 在其公司网站和博客上发布的帖子)以及当然作为 StumbleUpon 用户而学到的知识。

我还没有找到任何一个来源，无论是权威的还是其他的，都可以接近说“S/U 推荐引擎是如何工作的”，尽管这可以说是有史以来最成功的推荐引擎——统计数据疯了，S/U accounts for over half of all referrals on the Internet ，并且远远超过 Facebook，尽管其注册用户只占 Facebook 的一小部分(8 亿对 1500 万)；更重要的是，S/U 并不是真正具有推荐引擎的网站(例如 Amazon.com)，相反，网站本身就是一个推荐引擎 - 之间有大量的讨论和八卦。构建推荐引擎的人相当少，如果你对此进行筛选，我认为可以可靠地辨别所使用的算法类型、提供给它们的数据源以及它们在工作数据流中的连接方式。

下面的描述引用了我底部的图表。数据流中的每个步骤都由罗马数字表示。我的描述是向后进行的——从 URL 传递给用户的点开始，因此在实际使用中，步骤 I 最后发生，步骤 V 最先发生。

鲑鱼色椭圆形 => 数据源

浅蓝色矩形 => 预测算法

<小时/>

我。向 S/U 用户推荐的网页是多步骤流程中的最后一步

二. StumbleUpon 推荐引擎提供来自三个不同来源的数据(网页):

带有与您预先确定的主题标签匹配的网页兴趣(用户表示为兴趣的主题，并且是单击上方的“设置”选项卡即可查看/修改登录用户页面的右上角)；
社交认可的页面(*该用户的 friend 喜欢的页面*)；和
同行认可的页面(*类似用户喜欢的页面*)；

三．这些来源又是 StumbleUpon 预测算法返回的结果(相似用户是指由聚类算法(可能是 k 均值)确定的同一聚类中的用户)。

四。用于训练集群引擎的数据由带有用户评分注释的网页组成

V.该数据集(StumbleUpon 用户评分的网页)还用于训练监督分类器(例如多层感知器、支持向量机)该监督分类器是应用于尚未被用户评级的网页的类标签。

我发现的在其他推荐系统的上下文中讨论 SU 推荐引擎的最佳来源是 this BetaBeat Post .

enter image description here

关于machine-learning - StumbleUpon 推荐引擎的架构和基本组件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7471018/

machine-learning - StumbleUpon 推荐引擎的架构和基本组件

上一篇：machine-learning - SVM 相对于决策树和 AdaBoost 算法的优势

下一篇：machine-learning - 如何使用计算机视觉来查找图像中的形状？