在我的一篇博客PageRank中,在5.1 算法实现中简单实现部分原本是有一个错误的。这个错误也体现出我当时对PageRank算法有理解上的偏差。
这是个什么样的错误呢?是这样的:
简单实现中计算每个网页的PR值时使用的是最原始的方法,即下面的这个公式:
PR(pi)=α∑pj∈MpiPR(pj)L(pj)+(1−α)N
这个公式要求所有网页的PR值之和为1。而我原本的代码中给每个网页赋予的初始PR值的代码为:
page_rank = dict.fromkeys(nodes, 1.0) # 给每个节点赋予初始的PR值
也就是说,我给出的初始PR值之和为5(例子中共有5个网页)。
犯这个错误的原因是我理解错了“与 P0 的选取无关”这句话。正确的理解应该是:“与 P0 的初始概率分布无关”。
然而,我理解错了也还有另一个原因,那就是我原来的程序中不管给出的初始PR值是多少,最终的PR值都是一样的。现分析如下:
按照我原本的程序逻辑,我使用的公式应该是这样的,其中 G 为所有网页:
而我却使用了最原始的公式,造成了:
每轮迭代,每个页面的PR值都减少了(1−α)N∗(上轮PR值总和−1)⇒每轮迭代,PR值总和都减少了(1−α)∗(上轮PR值总和−1)
现假设初始PR值总和为 A0 ,则有:
最开始,PR值总和为:A0第一轮迭代之后,PR值总和为:A1=A0−(1−α)(A0−1)=αA0+1−α以此类推,则有An=αAn−1+1−α⇒An−1=α(An−1−1)⇒An−1=αn(A0−1)⇒An=αn(A0−1)+1∵α<1∴limn→∞An=1
即不管初始PR值为多少,最终其和都将趋于1(若初始值之和小于1,用相似的方法可以证明)。也就是说,最终结果是一样的(因为最终趋于1之后就相当于以“PR值总和为1”的情况又开始了计算)。这一点在代码中也有体现:当PR值设置得很大的时候,需要迭代的次数也相应增大。
总结:应该使用最上面的公式,同时初始PR值总和应该设置为1。
本文纠正了PageRank算法实现中的一个误解,并分析了即使初始PageRank值设置不当,最终结果也会趋于一致的原因。通过数学推导展示了不论初始值如何设定,经过足够多的迭代后,所有网页的PageRank值总和将趋于1。

1537

被折叠的 条评论
为什么被折叠?



