machine-learning - StumbleUpon 推荐引擎的架构和基本组件

标签 machine-learning similarity recommendation-engine collaborative-filtering

我想知道stumbleupon如何为其用户推荐文章?。

它是使用神经网络或某种机器学习算法,还是实际上根据用户“喜欢”的内容推荐文章,或者只是根据兴趣区域中的标签推荐文章?我的意思是使用标签,使用基于项目的协作过滤等?

最佳答案

首先,我对 S/U 的推荐引擎一无所知。我所知道的是,我通过过去几年关注这个主题以及研究公开来源(包括 StumbleUpon 在其公司网站和博客上发布的帖子)以及当然作为 StumbleUpon 用户而学到的知识。

我还没有找到任何一个来源,无论是权威的还是其他的,都可以接近说“S/U 推荐引擎是如何工作的”,尽管这可以说是有史以来最成功的推荐引擎——统计数据疯了,S/U accounts for over half of all referrals on the Internet ,并且远远超过 Facebook,尽管其注册用户只占 Facebook 的一小部分(8 亿对 1500 万);更重要的是,S/U 并不是真正具有推荐引擎的网站(例如 Amazon.com),相反,网站本身就是一个推荐引擎 - 之间有大量的讨论和八卦。构建推荐引擎的人相当少,如果你对此进行筛选,我认为可以可靠地辨别所使用的算法类型、提供给它们的数据源以及它们在工作数据流中的连接方式。

下面的描述引用了我底部的图表。数据流中的每个步骤都由罗马数字表示。我的描述是向后进行的——从 URL 传递给用户的点开始,因此在实际使用中,步骤 I 最后发生,步骤 V 最先发生。

鲑鱼色椭圆形 => 数据源

浅蓝色矩形 => 预测算法

<小时/>

我。向 S/U 用户推荐的网页是多步骤流程中的最后一步

二. StumbleUpon 推荐引擎提供来自三个不同来源的数据(网页):

  • 带有与您预先确定的主题标签匹配的网页 兴趣(用户表示为兴趣的主题,并且是 单击上方的“设置”选项卡即可查看/修改 登录用户页面的右上角);

  • 社交认可的页面(*该用户的 friend 喜欢的页面*);和

  • 同行认可的页面(*类似用户喜欢的页面*);

三.这些来源又是 StumbleUpon 预测算法返回的结果(相似用户是指由聚类算法(可能是 k 均值)确定的同一聚类中的用户)。

四。用于训练集群引擎的数据由带有用户评分注释的网页组成

V.该数据集(StumbleUpon 用户评分的网页)还用于训练监督分类器(例如多层感知器、支持向量机)该监督分类器是应用于尚未被用户评级的网页的类标签。

我发现的在其他推荐系统的上下文中讨论 SU 推荐引擎的最佳来源是 this BetaBeat Post .

enter image description here

关于machine-learning - StumbleUpon 推荐引擎的架构和基本组件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7471018/

相关文章:

python - 使用 numpy 为 RNN 准备数据的最快方法是什么?

php - 在(纯)PHP/MySQL 中查找类似图像

python - 如何从 pandas 数据帧计算 jaccard 相似度

hadoop - Mahout 运行分布式推荐给出空文件

mahout - 列表排名项目的最有效相似度度量

python - 如何构建一个使用多个属性的基于内容的推荐系统?

machine-learning - 机器学习: features that don't apper

java - 使用 liblinear (java) 进行概率预测,直接在代码中使用分类器

r - R gbm 函数中的权重参数

python - Pyspark:如何处理 python 用户定义函数中的空值