Python爬虫是一种自动化获取互联网上信息的有力工具,在遵守爬虫相关协议的前提下,适当的利用爬虫能够让我们更容易获取想要的信息。在此背景下,本文开始介绍基于Python的爬虫相关知识。
一个经典的爬虫例子就是获取豆瓣电影top250的影片列表,我们也以此为目的,首先分析网页内容并找到信息来源,后续再介绍的Requests库和Xpath方法。
我们首先在浏览器打开我们的目标网页进行观察 https://movie.douban.com/top250?start=0&filter=

观察URL可以发现,URL携带了start和filter两个参数,分别用于控制页面起始内容以及种类筛选;除了通过观察URL和页面内容去寻找我们想要的数据,另一种常见且高效的方式是通过浏览器自带开发者工具中的网络工具来筛选相关的内容(这种方法尤其在一些动态加载页面或是数据由间接URL提供的情况下有效,因此强烈推荐接下来介绍的方法)。
我们发开开发者工具并选择网络,刷新页面重新加载后在搜索框搜索我们想要的内容,例如在此案例中,我们可以搜索电影的名称等信息,如图所示:

点击搜索结果后会自动跳转到相应的URL上,点击相关的URL会出现该URL的具体信息,标头包含请求URL,请求方法等信息,负载一般包含携带的参数,响应为访问URL获取的内容,预览则是对内容进行一定的渲染。

958

被折叠的 条评论
为什么被折叠?



