python爬虫笔记（二）爬虫原理

最新推荐文章于 2020-12-10 13:20:19 发布

原创最新推荐文章于 2020-12-10 13:20:19 发布 · 224 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

PYTHON爬虫学习笔记专栏收录该内容

2 篇文章

订阅专栏

本文介绍爬虫的基本概念，包括如何使用Python的requests库发起GET请求获取网页内容，并将响应的数据保存为图片文件。同时，文章涵盖了请求与响应的基本流程、URL的概念及常见请求方式如GET和POST的区别。

爬虫：请求网站并提取数据的自动化程序

浏览器F12的html代码中的信息就是爬取的目标

request到response

浏览器发送消息（请求）到服务器，这个过程叫HTTP Request
服务器返回浏览器信息，HTTP Response
浏览器处理信息，展示

request

常用请求方式 GET、POST，post请求需要构造表单进行请求，数据不会暴露在url中

url统一资源定位符

请求头

HTML、JSON

AJAX——JSON解析

注意下面的示例，python中 '\' 是转义的含义，那么

从windows资源管理器中直接复制地址会导致文件写入错误（路径错误）[Errno 22] Invalid argument

import requests
response = requests.get('http://www.baidu.com/img/baidu_jgylogo3.gif')
print(response.content)
with open('C:\FeigeDownload\1.gif','wb')as f:
    f.write(response.content)
    f.close

import requests
response = requests.get('http://www.baidu.com/img/baidu_jgylogo3.gif')
print(response.content)
with open('C:/FeigeDownload/1.gif','wb')as f:
    f.write(response.content)
    f.close