hadoop - 检查页面排名收敛

标签 hadoop apache-spark pagerank

我以以下方式实现了页面排名收敛，
总结所有页面的所有页面等级得分，并与之前的迭代进行比较。我的一位 friend 给了我以下解释:
“如果您查看pagerank论文，他们会指出，其实现会导致所有分数总和为1，并且这些总和在多次迭代中都不会改变。
这是从论文中得出的:“请注意，PageRanks在网页上形成了概率分布，因此所有网页的PageRanks的总和将为1”

寻找页面排名算法是否收敛的正确方法是什么？请注意，我正在Hadoop和Spark中实现页面排名。请指教，我很困惑。

最佳答案

您可以像在任何迭代算法中一样定义收敛。如果迭代之间的估计参数变化小于阈值，则算法收敛。

关于hadoop - 检查页面排名收敛，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41068735/

上一篇：hadoop - Druid + Hadoop(两种用途，深度存储和索引编制)

下一篇：docker - 为 dockerized Consul 找出服务的 IP 地址

sparql - 维基数据结果按类似于 PageRank 的方式排序

regex - 在 Spark RDD 中使用正则表达式从字符串中提取时间戳

hadoop - 在(主)hdfs dfsadmin -report中出错，它显示的全部为0

java - 在 ubuntu 上安装配置单元(derby 有问题？)

java - 如何在 Datastax Enterprise 上启动 Spark Thrift Server(因 java.lang.NoSuchMethodError : . ..LogDivertAppender.setWriter 而失败)？

python-2.7 - NetworkX python : pagerank_numpy, pagerank 失败但 pagerank_scipy 有效

hadoop - Elasticsearch-Hadoop如何在spark程序中进行批量搜索

hadoop - 如何通过保留修改时间将 HDFS 文件从一个集群复制到另一个集群