java - 如何实时计算网页排名

标签 java pagerank

我已阅读http://en.wikipedia.org/wiki/PageRank中的解释我知道页面排名是通过传入链接和传出链接计算的。

我有一个爬虫,同时爬取网页并存储在数据库中我需要一个页面排名算法。 我有一个具有以下值的数据库

Title 
url
content_html
outgoing_links(external domain)
internal_links(the links with  same domain of the url)

你能解释一下我需要任何其他值来计算页面排名吗?请解释如何使用 java 计算它

最佳答案

PageRank 的核心是线性代数特征值问题:

http://www.rose-hulman.edu/~bryan/googleFinalVersionFixed.pdf

如果您不知道线性代数或特征值问题,或者不愿意阅读本文,您不太可能解决这个问题。正如爱因斯坦所说,“让问题尽可能简单,但不能更简单……”

这篇论文的标题是旧的;它指的是谷歌大约在 2004 年的市值。今天早上它高达 $211B。

技术一直没有停滞不前。谷歌继续以专有方式调整算法。但这篇论文解释了它的核心。

关于java - 如何实时计算网页排名,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9891168/

相关文章:

java - 如何设置S3文件夹中所有文件的ACL

python - 用于查找域的 pagerank 的脚本

java - 使用java数据库连接从MS Access表中删除指定记录

java - Capistrano 任务未在 cap 部署中运行

algorithm - 如何检查 Page Rank 收敛?

c - 非常奇怪的问题 - C 和 pthreads

seo - Google 优先分配域名中的页面排名?

python - 页面排名转换矩阵的高效实现

java - 什么是NullPointerException,我该如何解决?

java - token "finally"上的语法错误,删除此 token 并且方法 readStream(InputStream) 未定义类型 ParkActivity