为了防止这些视频下架，我连夜用Python将她们下载下来

原创已于 2024-08-03 15:38:40 修改 · 621 阅读

本内容遵循CC 4.0 BY-SA版权协议

标签

#python #开发语言

于 2024-07-29 15:24:11 首次发布

188 篇文章

订阅专栏

晚上在不经意间刷到一些好看的视频，为了防止视频消失被删，我连夜写了代码将她们爬了下来，真好看！

准备工作

环境使用

Python 3.10
Pycharm

模块使用

requests --> pip install requests
DrissionPage --> pip install DrissionPage
execjs --> pip install pyexecjs
json re

文章看不懂，没关系，我还录制了详细的视频讲解，直接文末点击名片自取即可。

明确采集的网站以及数据内容

网址: https://***/user/MS4wLjABAAAAB0-gppwu15DtJJZmMpgUqakr7Jw_pmr7 skR3IW6MwCQ?modal_id=7373225752063413554
数据: 视频内容 / 视频标题
2.抓包分析
通过浏览器开发者工具分析对应的数据位置

基本抓包步骤: 浏览器中进行的操作
1.打开开发者工具
-F12 / 右键点击检查选择 network (网络)
2.刷新网页
3.通过关键字搜索找到对应数据位置关键字: 需要什么数据搜什么数据
-找视频链接地址: 开发者工具 -> 网络 -> 媒体
-利用链接中一段参数进行搜索

数据包地址: https://****/user/MS4wLjABAAAAB0- gppwu15DtJJZmMpgUqakr7Jw_pmr7skR3IW6MwCQ?modal_id=7373225752063413554

模拟浏览器对于url地址发送请求模拟浏览器

 使用请求标头中的参数即可
     - 开发者工具 -> 网络 -> 点击对应的数据包 -> 标头 -> 请求标头

请求网址

 刚刚抓包分析找到链接地址

发送请求

 使用第三方模块: requests进行数据请求

获取服务器返回响应数据

提取我们需要的数据: 视频链接 / 视频标题

在这里插入图片描述

获取视频内容, 保存本地文件夹
批量采集数据
分析请求链接/参数变化规律

好了，分享到这，源码和视频讲解在下方名片自取