《python爬虫入门教程03--重剑无峰168》

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

本此程序主要演示python爬虫来简单爬取网页、图片、视频的示例。但是这是一个简单版的,一些未经过处理的网站可以直接爬取。
对了顺便说一下url链接怎么找,找到想要的网页,按下F12然后找到对应网站的元素定位,找到想要下载的文件的url。

一、urllib.request.urlretrieve()函数的介绍?


urllib.request.urlretrieve(url, filename=None, reporthook=None, data=None)
# 1.参数说明
# url:外部或本地URL。这是要下载的网络资源的地址。
# filename:指定保存到本地的路径(如果未指定该参数,urllib会生成一个临时文件来保存数据)。这个参数允许用户自定义下载文件的保存位置和名称。
# reporthook:一个回调函数,当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调。这个回调函数可以用于显示当前的下载进度。回调函数将接收三个参数:到目前为止传输的块计数(以字节为单位的已下载数据量)、一个块的大小(每次读取的数据块大小)以及文件的总大小(整个网络资源的大小)。需要注意的是,在一些老旧的FTP服务器上,文件总大小可能为-1,因为这些服务器不返回文件大小以响应检索请求。
# data:指POST到服务器的数据。这个参数通常用于发送POST请求时的数据体,默认为None。当使用GET请求时,通常不需要设置此参数

# 2.返回值
# 该函数返回一个包含两个元素的元组(filename, headers):
# 
# filename:保存到本地的路径,即下载后的文件名。
# headers:服务器的响应头,是调用urlopen()后的返回对象再调用info()方法后的返回值(用于远程对象)

二、使用示例

import urllib.request

# 1.下载网页
url_page = 'http://www.baidu.com'
# url代表的是下载的路径,filename为文件名
urllib.request.urlretrieve(url_page, 'baidu.html')

# 2.下载图片
url_img = 'https://p4.itc.cn/images01/20231216/8dd49fb9bc624c309447d0b44503aedc.jpeg'
# url代表的是下载的路径,filename为文件名
urllib.request.urlretrieve(url=url_img, filename='yangmi.jpg')

# 3.下载视频
url_video = 'https://www.ixigua.com/bab186ec-7df5-4e5a-a6fe-9240e3de35fc'
# url代表的是下载的路径,filename为文件名
urllib.request.urlretrieve(url=url_video, filename='中国工厂.mp4')

总结

1.上述程序应该都看的懂,主要链接应该如何找。
2.图片的链接,比如百度搜索图片->找到图片右键【复制图片地址】->【粘贴过来即可】
3.视频地址->F12->下方图片蓝色位置->定位视频的src=“https…” 即可
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值