爬虫经典案例 | 爬取豆瓣top250

最新推荐文章于 2026-05-25 10:17:44 发布

原创

最新推荐文章于 2026-05-25 10:17:44 发布 · 2.2w 阅读

·

56

·

标签

#python #爬虫

本文详细介绍了如何使用Python爬虫抓取豆瓣电影Top250页面的电影信息，包括标题、评分、评价人数、引言和电影链接。通过分析页面结构，确定XPath表达式，并实现翻页功能。在代码实现部分，展示了从发起请求、解析HTML到保存数据到CSV文件的完整流程。最后，通过用户输入指定页码范围，爬虫将爬取相应页面并保存数据。

该文章已生成可运行项目，

一、页面分析

1.1 单页分析

目标url：https://movie.douban.com/top250?start=0&filter=
本次的爬取目标主要是：标题、评分、评价人数、引言、电影链接
在这里插入图片描述

由于该网页为静态网页，所以上手的难度也大大减少。
进入开发者工具寻找我们要爬取的数据所在位置（由于是静态的网页所以直接f12在Elements找）
1、电影名称（标题）
在这里插入图片描述
2、评分

3、评价人数

4、引言

5、电影链接

找到了对应的数据所在位置后就可以用xpath工具来确定一下他们的起始位置

通过工具可以发现一共有25个搜索结果，对应的也就是一个页面的25部电影的信息。所以我们在写代码的时候就可以以这个路径为基础路径从而进一步的查找我们要找到的信息

1、电影名称解析
在这里插入图片描述

//div[@class="info"]/div[@class="hd"]/a/span/text()

2、评分解析
在这里插入图片描述

//div[@class="info"]/div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()

3、评价人数解析
在这里插入图片描述

//div[@class="info"]/div[@class="bd"]/div[@class="star"]/span[last()]/text()

注：评价人数由于没有class属性定位不到这条数据，所以就用了last()就可以直接定位到span里的最后一条数据。

4、引言解析
在这里插入图片描述

//div[@class="info"

本文章已经生成可运行项目

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。