一、cookie登录
在需要进入个人信息页面时,服务器会跳转到登录页面,登录页面的编码不是utf-8,个人信息页面是utf-8,故在爬取个人信息页面的数据时,会报错编码错误,此时我们就需要cookie登录了。【在请求头中最好留下refere】
refere是防盗链,判断当前页面是不是由上一个路径跳转。
注意:反爬手段出现了动态cookie,以后再对此做出解释。
爬取QQ空间
二、handler处理器【更高级的请求头】-- 处理动态cookie和代理ip不能进行请求定制
handler、build_opener、open
1.获得handler对象
handler = urllib.request.HTTPHandler()
2.通过handler对象获取opener对象
opener = urllib.request.build_opener(h

本文介绍了如何使用Cookie进行爬虫登录以解决编码错误问题,特别是在处理非UTF-8编码的登录页面。同时,讲解了Handler处理器的概念,它是更高级的请求头设置方式,用于处理动态Cookie和代理IP,包括获取Handler对象、创建Opener以及使用Opener打开网页的步骤。以爬取QQ空间和百度首页为例,阐述了这些技术的实际应用。

2118

被折叠的 条评论
为什么被折叠?



