大数据挖掘笔记2——PageRank

本文介绍了PageRank算法,用于衡量网页的重要性。PageRank通过Web转移矩阵计算随机冲浪者的访问概率,处理终止点问题,并在搜索引擎中作为排序依据。此外,还探讨了PageRank在MapReduce中的实现、主题定向的改进以及导航页和权威页的概念。

1.PageRank

PageRank是一个函数,为Web中每个网页赋予一个实数值。PageRank值越高,越重要。

Web转移矩阵:描述随机冲浪者下一步的访问行为。网页数目为n,则M为一个n*n的方阵。网页j有k条出链,则对链向网页i的元素值Mij=1/k。


第一列表示处于A的随机冲浪者将以1/3的概率访问其他3个网页。随机冲浪者位置的概率分布可以通过n维列向量描述,第j个分量代表冲浪者处于网页j的概率。

假设随机冲浪处于n个网页的初始概率相等,即n维向量v0=[1/n,1/n,......,1/n],则下一步的位置概率x = M * v0。最终到达一个极限分布v,满足v=Mv。不断左乘迭代(50-70次)即可。

<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值