两个概念模型及算法之间的关系
- 随机游走模型
随机游走模型是针对浏览器网页的用户行为建立的抽象概念模型,之所以要建立这个抽象概念模型,是因为包括PageRank算法在内的很多链接分析算法都是建立在随机游走模型基础上的。
随机游走模型假设网页在包含的url之间的跳转机会均等。假设有3个网页ABC,A网页包含B的URL,B包含C的URL,C包含A和B的URL,那么其矩阵为:

- 子集传播模型
其基本思想是,在做算法设计时,把互联网页面按照一定的规则划分,分为多个子集合。其中某个子集合具有特殊的性质,很多算法从这个特殊性质的子集出发,给与子集内网页初始权值,之后根据这个特殊子集合内网页和其他网页的链接关系,按照一定的方式将权值传递到其他网页。
PageRank算法
PageRank考虑到某个网页的入链接越多,这个网页越重要(同时这也有可作弊的空间了,比如疯狂刷链接)。还参考了网页质量因素,质量越高网页的链入,权重越大。
- 链接陷阱
链接有时候会形成循环,就是A指向B,B也指向A。这样在计算PageRank的时候,该结构导致系统只会吸收传入的分值,而不能将获得的分值传出去,随着连续的循环计算,这使得PageRank得分越来越高。
- 远程跳转
所谓远程跳转,即在网页向外传递分值的时候,不限于向出链所指向的网页传递,也可以有一定的概率向其他网页跳转,这对于陷阱链接,是一个解决方法。
- 缺点
- 与


6万+

被折叠的 条评论
为什么被折叠?



