一、页面分析
1.1 单页分析
目标url:https://movie.douban.com/top250?start=0&filter=
本次的爬取目标主要是:标题、评分、评价人数、引言、电影链接

由于该网页为静态网页,所以上手的难度也大大减少。
进入开发者工具 寻找我们要爬取的数据所在位置(由于是静态的网页所以直接f12在Elements找)
1、电影名称(标题)

2、评分

3、评价人数

4、引言

5、电影链接

找到了对应的数据所在位置后就可以用xpath工具来确定一下他们的起始位置

通过工具可以发现一共有25个搜索结果,对应的也就是一个页面的25部电影的信息。所以我们在写代码的时候就可以以这个路径为基础路径从而进一步的查找我们要找到的信息
1、电影名称解析

//div[@class="info"]/div[@class="hd"]/a/span/text()
2、评分解析

//div[@class="info"]/div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()
3、评价人数解析

//div[@class="info"]/div[@class="bd"]/div[@class="star"]/span[last()]/text()
注:评价人数由于没有class属性定位不到这条数据,所以就用了last()就可以直接定位到span里的最后一条数据。
4、引言解析

//div[@class="info"

本文详细介绍了如何使用Python爬虫抓取豆瓣电影Top250页面的电影信息,包括标题、评分、评价人数、引言和电影链接。通过分析页面结构,确定XPath表达式,并实现翻页功能。在代码实现部分,展示了从发起请求、解析HTML到保存数据到CSV文件的完整流程。最后,通过用户输入指定页码范围,爬虫将爬取相应页面并保存数据。

586

被折叠的 条评论
为什么被折叠?



