1.PageRank
PageRank是一个函数,为Web中每个网页赋予一个实数值。PageRank值越高,越重要。
Web转移矩阵:描述随机冲浪者下一步的访问行为。网页数目为n,则M为一个n*n的方阵。网页j有k条出链,则对链向网页i的元素值Mij=1/k。
第一列表示处于A的随机冲浪者将以1/3的概率访问其他3个网页。随机冲浪者位置的概率分布可以通过n维列向量描述,第j个分量代表冲浪者处于网页j的概率。
假设随机冲浪处于n个网页的初始概率相等,即n维向量v0=[1/n,1/n,......,1/n],则下一步的位置概率x = M * v0。最终到达一个极限分布v,满足v=Mv。不断左乘迭代(50-70次)即可。
<

本文介绍了PageRank算法,用于衡量网页的重要性。PageRank通过Web转移矩阵计算随机冲浪者的访问概率,处理终止点问题,并在搜索引擎中作为排序依据。此外,还探讨了PageRank在MapReduce中的实现、主题定向的改进以及导航页和权威页的概念。

2288

被折叠的 条评论
为什么被折叠?



