这就是搜索引擎——链接分析

两个概念模型及算法之间的关系


  • 随机游走模型

随机游走模型是针对浏览器网页的用户行为建立的抽象概念模型,之所以要建立这个抽象概念模型,是因为包括PageRank算法在内的很多链接分析算法都是建立在随机游走模型基础上的。
随机游走模型假设网页在包含的url之间的跳转机会均等。假设有3个网页ABC,A网页包含B的URL,B包含C的URL,C包含A和B的URL,那么其矩阵为:
在这里插入图片描述


  • 子集传播模型

其基本思想是,在做算法设计时,把互联网页面按照一定的规则划分,分为多个子集合。其中某个子集合具有特殊的性质,很多算法从这个特殊性质的子集出发,给与子集内网页初始权值,之后根据这个特殊子集合内网页和其他网页的链接关系,按照一定的方式将权值传递到其他网页。

PageRank算法

PageRank考虑到某个网页的入链接越多,这个网页越重要(同时这也有可作弊的空间了,比如疯狂刷链接)。还参考了网页质量因素,质量越高网页的链入,权重越大。


  • 链接陷阱

链接有时候会形成循环,就是A指向B,B也指向A。这样在计算PageRank的时候,该结构导致系统只会吸收传入的分值,而不能将获得的分值传出去,随着连续的循环计算,这使得PageRank得分越来越高。

  • 远程跳转

所谓远程跳转,即在网页向外传递分值的时候,不限于向出链所指向的网页传递,也可以有一定的概率向其他网页跳转,这对于陷阱链接,是一个解决方法。


  • 缺点
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值