《python爬虫入门教程03--重剑无峰168》

最新推荐文章于 2026-06-23 21:06:11 发布

原创最新推荐文章于 2026-06-23 21:06:11 发布 · 506 阅读

5 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#python #爬虫 #开发语言

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

python爬虫入门教程03

前言
一、urllib.request.urlretrieve()函数的介绍？
二、使用示例
总结

前言

本此程序主要演示python爬虫来简单爬取网页、图片、视频的示例。但是这是一个简单版的，一些未经过处理的网站可以直接爬取。
对了顺便说一下url链接怎么找，找到想要的网页，按下F12然后找到对应网站的元素定位，找到想要下载的文件的url。

一、urllib.request.urlretrieve()函数的介绍？


urllib.request.urlretrieve(url, filename=None, reporthook=None, data=None)
# 1.参数说明
# url：外部或本地URL。这是要下载的网络资源的地址。
# filename：指定保存到本地的路径（如果未指定该参数，urllib会生成一个临时文件来保存数据）。这个参数允许用户自定义下载文件的保存位置和名称。
# reporthook：一个回调函数，当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调。这个回调函数可以用于显示当前的下载进度。回调函数将接收三个参数：到目前为止传输的块计数（以字节为单位的已下载数据量）、一个块的大小（每次读取的数据块大小）以及文件的总大小（整个网络资源的大小）。需要注意的是，在一些老旧的FTP服务器上，文件总大小可能为-1，因为这些服务器不返回文件大小以响应检索请求。
# data：指POST到服务器的数据。这个参数通常用于发送POST请求时的数据体，默认为None。当使用GET请求时，通常不需要设置此参数

# 2.返回值
# 该函数返回一个包含两个元素的元组(filename, headers)：
# 
# filename：保存到本地的路径，即下载后的文件名。
# headers：服务器的响应头，是调用urlopen()后的返回对象再调用info()方法后的返回值（用于远程对象）

二、使用示例

import urllib.request

# 1.下载网页
url_page = 'http://www.baidu.com'
# url代表的是下载的路径，filename为文件名
urllib.request.urlretrieve(url_page, 'baidu.html')

# 2.下载图片
url_img = 'https://p4.itc.cn/images01/20231216/8dd49fb9bc624c309447d0b44503aedc.jpeg'
# url代表的是下载的路径，filename为文件名
urllib.request.urlretrieve(url=url_img, filename='yangmi.jpg')

# 3.下载视频
url_video = 'https://www.ixigua.com/bab186ec-7df5-4e5a-a6fe-9240e3de35fc'
# url代表的是下载的路径，filename为文件名
urllib.request.urlretrieve(url=url_video, filename='中国工厂.mp4')

总结

1.上述程序应该都看的懂，主要链接应该如何找。
2.图片的链接，比如百度搜索图片->找到图片右键【复制图片地址】->【粘贴过来即可】
3.视频地址->F12->下方图片蓝色位置->定位视频的src=“https…” 即可
在这里插入图片描述