RSS/sitemap系统:时效性系统利用RSS/sitemap的过程是挖掘种子,定时抓取,解析链接发布时间,将较新的网页优先抓取并索引。
泛爬系统:泛爬系统设计良好的话有助于提高时效性网页的高覆盖率,但泛爬需要尽可能缩短调度周期。
种子调度系统:主要是一个时效性的种子库,这个种子库里面有一些信息调度系统会不断地扫描这个数据库,然后发给抓取集群,这个集群抓取完会进行一些抽取链接的处理,接下来把这些按类别发出去,各个垂直频道会获取到时效性的数据。
种子的挖掘:涉及到页面解析或其它的一些挖掘手段,可以通过站点地图,还有导航条来构建,还要基于页面结构特征和页面变更规律。
种子的更新机制:记录每个种子的抓取历史,follow的链接信息,定期根据种子的外链更新特征,重新计算种子的更新周期。
抓取系统与JavaScript解析:使用浏览器进行抓取,搭建一个基于浏览器抓取的抓取集群。或采用开源项目,如Qtwebkit。讲师精彩演讲内容可参考下面的PPT(下载链接):
CSDN推荐:欢迎免费订阅《Hadoop与大数据周刊》获取更多Hadoop技术文献、生态圈趋势。
本文为CSDN原创文章,未经允许不得转载,如需转载请联系market#csdn.net(#换成@)
本文介绍了RSS/sitemap系统在时效性系统中的作用,包括种子挖掘、抓取和更新机制。泛爬系统有助于提高时效性网页的覆盖率,而种子调度系统负责种子的管理和抓取。此外,还讨论了种子的更新策略和JavaScript解析,提到了基于浏览器抓取的解决方案。文章提供相关PPT下载链接,供深入学习。

1322

被折叠的 条评论
为什么被折叠?



