我正在构建一个博客聚合器,例如 Techmeme它可以从多个博客中查找最受欢迎的帖子。与 Techmeme 不同,我首先从各种 RSS 源聚合博客文章,然后将标题和相关 URL 保存在数据库中。之后,我必须找到最受欢迎的博客文章是什么。
为了定义热门博客文章标题,我跟踪每个博客的每篇文章的 Facebook 和 Twitter 分享计数,并根据分享计数对博客文章进行排名。但这并不是最好的解决方案,因为一些博主可以通过欺诈性分享来增加分享数量来进行欺骗。
所以我的问题是我可以使用什么标准来定义最受欢迎的帖子是什么? 对博客文章进行排名的更好算法是什么?
最佳答案
由于“流行”一词在这种情况下是模糊的,我会根据我的标准来定义帖子的流行度。结合所有建议的答案,为博客文章制定合理的声誉系统。例如,基本上我会做这样的事情。
- Facebook 分享 x 2
- 推特分享 x 3
- 域名的 pagerank x 2
- 50 000/全局 Alexa 评分
- 等等
最后,大家可以总结一下,比较一下。此外,您可以制定一些标准,考虑帖子的大小、帖子中的图像数量等。
关于流行博客文章排名算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9570384/