我已阅读http://en.wikipedia.org/wiki/PageRank中的解释我知道页面排名是通过传入链接和传出链接计算的。
我有一个爬虫,同时爬取网页并存储在数据库中我需要一个页面排名算法。 我有一个具有以下值的数据库
Title
url
content_html
outgoing_links(external domain)
internal_links(the links with same domain of the url)
你能解释一下我需要任何其他值来计算页面排名吗?请解释如何使用 java 计算它
最佳答案
PageRank 的核心是线性代数特征值问题:
http://www.rose-hulman.edu/~bryan/googleFinalVersionFixed.pdf
如果您不知道线性代数或特征值问题,或者不愿意阅读本文,您不太可能解决这个问题。正如爱因斯坦所说,“让问题尽可能简单,但不能更简单……”
这篇论文的标题是旧的;它指的是谷歌大约在 2004 年的市值。今天早上它高达 $211B。
技术一直没有停滞不前。谷歌继续以专有方式调整算法。但这篇论文解释了它的核心。
关于java - 如何实时计算网页排名,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9891168/