爬虫:请求网站并提取数据的自动化程序
浏览器F12的html代码中的信息就是爬取的目标
request到response
- 浏览器发送消息(请求)到服务器,这个过程叫HTTP Request
- 服务器返回浏览器信息,HTTP Response
- 浏览器处理信息,展示
request
常用请求方式 GET、POST,post请求需要构造表单进行请求,数据不会暴露在url中
url统一资源定位符
请求头
HTML、JSON
AJAX——JSON解析
从windows资源管理器中直接复制地址会导致文件写入错误(路径错误)[Errno 22] Invalid argument
import requests
response = requests.get('http://www.baidu.com/img/baidu_jgylogo3.gif')
print(response.content)
with open('C:\FeigeDownload\1.gif','wb')as f:
f.write(response.content)
f.close
import requests
response = requests.get('http://www.baidu.com/img/baidu_jgylogo3.gif')
print(response.content)
with open('C:/FeigeDownload/1.gif','wb')as f:
f.write(response.content)
f.close
本文介绍爬虫的基本概念,包括如何使用Python的requests库发起GET请求获取网页内容,并将响应的数据保存为图片文件。同时,文章涵盖了请求与响应的基本流程、URL的概念及常见请求方式如GET和POST的区别。
爬虫原理&spm=1001.2101.3001.5002&articleId=79918310&d=1&t=3&u=00a122a35e6e460696655abb28ac714c)
1290

被折叠的 条评论
为什么被折叠?



