晚上在不经意间刷到一些好看的视频,为了防止视频消失被删,我连夜写了代码将她们爬了下来,真好看!

准备工作
环境使用
Python 3.10
Pycharm
模块使用
requests --> pip install requests
DrissionPage --> pip install DrissionPage
execjs --> pip install pyexecjs
json re
文章看不懂,没关系,我还录制了详细的视频讲解,直接文末点击名片自取即可。

基本的流程
一、数据来源分析
1.明确需求
明确采集的网站以及数据内容
- 网址: https://***/user/MS4wLjABAAAAB0-gppwu15DtJJZmMpgUqakr7Jw_pmr7 skR3IW6MwCQ?modal_id=7373225752063413554
- 数据: 视频内容 / 视频标题
2.抓包分析
通过浏览器开发者工具分析对应的数据位置
基本抓包步骤: 浏览器中进行的操作
1.打开开发者工具
-F12 / 右键点击检查选择 network (网络)
2.刷新网页
3.通过关键字搜索找到对应数据位置关键字: 需要什么数据搜什么数据
-找视频链接地址: 开发者工具 -> 网络 -> 媒体
-利用链接中一段参数进行搜索
数据包地址: https://****/user/MS4wLjABAAAAB0- gppwu15DtJJZmMpgUqakr7Jw_pmr7skR3IW6MwCQ?modal_id=7373225752063413554
二、代码实现步骤
1.发送请求
模拟浏览器对于url地址发送请求模拟浏览器
使用请求标头中的参数即可
- 开发者工具 -> 网络 -> 点击对应的数据包 -> 标头 -> 请求标头
请求网址
刚刚抓包分析找到链接地址
发送请求
使用第三方模块: requests进行数据请求
2.获取数据
获取服务器返回响应数据
3.解析数据
提取我们需要的数据: 视频链接 / 视频标题

4.保存数据
获取视频内容, 保存本地文件夹
批量采集数据
分析请求链接/参数变化规律
好了,分享到这,源码和视频讲解在下方名片自取

1240

被折叠的 条评论
为什么被折叠?



