Python爬虫实战 | 爬取豆瓣电影简介

本案例将介绍如何爬取豆瓣电影简介,以此帮助读者学习如何通过编写爬虫程序来批量地从互联网中获取信息。本案例中将借助两个第三方库——Requests库和BeautifulSoup库。通过Requests库获取相关的网页信息,通过BeautifulSoup库解析大体框架信息的内容,并且将局部信息中最关键的内容提取出来。通过使用第三方库,读者可以实现定向网络爬取和网页解析的基本目标。

01

确定信息源

首先,需要明确要爬取哪些内容,并精确到需要爬取的网页。在本案例中需要爬取电影的简介,因此选择信息较为全面的豆瓣电影。

进入“豆瓣电影”首页,如图3-1所示,可以看到各种推荐的电影。

■ 图3-1豆瓣电影首页

选择其中任意一部电影,进入电影简介页面,如图3-2所示。可以发现每部电影的简介页面都具有相似的结构,这为编写爬虫程序提供了极大的方便。这意味着只需要以某部电影的电影简介页面为模板编写爬虫程序,此后便可以运用到豆瓣网站中其他所有电影简介的页面。

■ 图3-2豆瓣电影简介页面

02

获取网页信息

确定了需要爬取的网页后,需要如何获取这些信息呢?要知道网页是一个包含HTML标签的纯文本文件。可以通过使用Requests库的request()方法向指定网址发送请求获得的文本文件。注意,在使用Python第三方库前需要在本机上安装第三方库,可以使用pip方式或者其他方式安装。

1. Requests库的两个主要方法

下面先来简单介绍本实验需要用到的Requests库的两个主要方法。

(1) requests.request()方法。该方法的作用是构造一个请求,是支持其他方法的基础方法。

(2) requests.get()方法。该方法是本案例需要用到的一个获取网页的方法,会构造一个向服务器请求资源的Request对象,然后返回一个包含服务器资源的Response对象。其作用是获取HTML网页,对应于HTTP的GET。调用该方法需要一些参数。

① requests.get(url, params=None, **kwargs)。

② url:需要

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值