hadoop - 检查页面排名收敛

标签 hadoop apache-spark pagerank

我以以下方式实现了页面排名收敛,
总结所有页面的所有页面等级得分,并与之前的迭代进行比较。我的一位 friend 给了我以下解释:
“如果您查看pagerank论文,他们会指出,其实现会导致所有分数​​总和为1,并且这些总和在多次迭代中都不会改变。
这是从论文中得出的:“请注意,PageRanks在网页上形成了概率分布,因此所有网页的PageRanks的总和将为1”

寻找页面排名算法是否收敛的正确方法是什么?请注意,我正在Hadoop和Spark中实现页面排名。请指教,我很困惑。

最佳答案

您可以像在任何迭代算法中一样定义收敛。如果迭代之间的估计参数变化小于阈值,则算法收敛。

关于hadoop - 检查页面排名收敛,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41068735/

相关文章:

python - 使用工作流在 github 中对 databricks python 代码进行 flake8 linting

sparql - 维基数据结果按类似于 PageRank 的方式排序

regex - 在 Spark RDD 中使用正则表达式从字符串中提取时间戳

hadoop - 在(主)hdfs dfsadmin -report中出错,它显示的全部为0

java - 在 ubuntu 上安装配置单元(derby 有问题?)

java - 如何在 Datastax Enterprise 上启动 Spark Thrift Server(因 java.lang.NoSuchMethodError : . ..LogDivertAppender.setWriter 而失败)?

python-2.7 - NetworkX python : pagerank_numpy, pagerank 失败但 pagerank_scipy 有效

hadoop - Elasticsearch-Hadoop如何在spark程序中进行批量搜索

hadoop - 如何通过保留修改时间将 HDFS 文件从一个集群复制到另一个集群