
本案例将介绍如何爬取豆瓣电影简介,以此帮助读者学习如何通过编写爬虫程序来批量地从互联网中获取信息。本案例中将借助两个第三方库——Requests库和BeautifulSoup库。通过Requests库获取相关的网页信息,通过BeautifulSoup库解析大体框架信息的内容,并且将局部信息中最关键的内容提取出来。通过使用第三方库,读者可以实现定向网络爬取和网页解析的基本目标。
01
确定信息源
首先,需要明确要爬取哪些内容,并精确到需要爬取的网页。在本案例中需要爬取电影的简介,因此选择信息较为全面的豆瓣电影。
进入“豆瓣电影”首页,如图3-1所示,可以看到各种推荐的电影。

■ 图3-1豆瓣电影首页
选择其中任意一部电影,进入电影简介页面,如图3-2所示。可以发现每部电影的简介页面都具有相似的结构,这为编写爬虫程序提供了极大的方便。这意味着只需要以某部电影的电影简介页面为模板编写爬虫程序,此后便可以运用到豆瓣网站中其他所有电影简介的页面。

■ 图3-2豆瓣电影简介页面
02
获取网页信息
确定了需要爬取的网页后,需要如何获取这些信息呢?要知道网页是一个包含HTML标签的纯文本文件。可以通过使用Requests库的request()方法向指定网址发送请求获得的文本文件。注意,在使用Python第三方库前需要在本机上安装第三方库,可以使用pip方式或者其他方式安装。
1. Requests库的两个主要方法
下面先来简单介绍本实验需要用到的Requests库的两个主要方法。
(1) requests.request()方法。该方法的作用是构造一个请求,是支持其他方法的基础方法。
(2) requests.get()方法。该方法是本案例需要用到的一个获取网页的方法,会构造一个向服务器请求资源的Request对象,然后返回一个包含服务器资源的Response对象。其作用是获取HTML网页,对应于HTTP的GET。调用该方法需要一些参数。
① requests.get(url, params=None, **kwargs)。
② url:需要


1734

被折叠的 条评论
为什么被折叠?



