Python爬虫基础：5分钟学会发送各类HTTP请求（附完整代码模板）

最新推荐文章于 2026-06-22 09:27:48 发布

原创最新推荐文章于 2026-06-22 09:27:48 发布 · 541 阅读

8 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

第一章：Python爬虫入门与HTTP请求概述

在现代数据驱动的应用开发中，网络爬虫成为获取公开数据的重要手段。Python凭借其简洁的语法和强大的库支持，成为实现网络爬虫的首选语言之一。核心原理是模拟浏览器向服务器发送HTTP请求，并解析返回的响应内容，从而提取所需信息。

HTTP请求基础

HTTP（HyperText Transfer Protocol）是客户端与服务器通信的标准协议。爬虫程序通常通过发送GET或POST请求获取网页内容。Python中的requests库极大简化了这一过程。例如，使用requests获取一个网页的基本代码如下：

# 导入requests库
import requests

# 发送GET请求
response = requests.get("https://httpbin.org/get")

# 检查响应状态码
if response.status_code == 200:
    print("请求成功")
    print(response.text)  # 输出响应内容
else:
    print(f"请求失败，状态码：{response.status_code}")

上述代码首先导入requests模块，调用get()方法向指定URL发起请求，随后通过status_code判断请求是否成功，并输出结果。

常见的HTTP状态码

了解关键状态码有助于调试爬虫逻辑：

状态码	含义
200	请求成功
404	页面未找到
403	禁止访问
500	服务器内部错误

爬虫工作流程概览

典型的爬虫执行流程包含以下步骤：

确定目标网址并构造请求
发送HTTP请求获取响应
解析HTML或JSON内容
提取结构化数据并存储
遵守robots.txt与反爬策略

graph TD A[发起请求] --> B{响应成功?} B -->|是| C[解析内容] B -->|否| D[重试或记录错误] C --> E[提取数据] E --> F[保存结果]

第二章：GET请求的理论与实践

2.1 GET请求原理与参数传递机制

GET请求是HTTP协议中最基础的请求方法，用于从服务器获取指定资源。其核心特点是将参数以键值对形式附加在URL后，通过查询字符串（Query String）传递。

请求结构解析

一个典型的GET请求如下：

GET /api/users?name=zhangsan&age=25 HTTP/1.1
Host: example.com

其中?name=zhangsan&age=25为查询参数，由&分隔多个键值对，服务器据此过滤数据。

参数编码规范

为确保传输安全，特殊字符需进行URL编码：

空格 → %20
中文字符 → UTF-8编码后转百分号表示
保留字符如?、&需转义

原始字符	编码结果
张三	%E5%BC%A0%E4%B8%89
@	%40

2.2 使用requests发送简单GET请求

在Python中，`requests`库是发送HTTP请求的首选工具。通过简单的接口即可完成网络数据获取。

发送基础GET请求

使用`requests.get()`方法可轻松发起GET请求：

import requests

response = requests.get("https://httpbin.org/get")
print(response.status_code)  # 输出状态码
print(response.text)         # 输出响应内容

其中，`status_code`表示HTTP响应状态（如200表示成功），`text`返回响应的文本内容。

常用参数说明

url：目标请求地址，必填参数；
params：用于附加查询参数，接收字典类型；
headers：自定义请求头，如设置User-Agent。

例如添加查询参数：

params = {'key1': 'value1', 'key2': 'value2'}
response = requests.get("https://httpbin.org/get", params=params)

该请求会将参数自动编码并附加到URL后。

2.3 带查询参数的GET请求实战

在实际开发中，GET请求常需携带查询参数以实现数据过滤。例如向用户列表接口传入分页和关键词参数。

构造带参URL

使用Go语言可通过net/url包安全拼接查询字符串：

package main

import (
    "fmt"
    "net/url"
)

func main() {
    u, _ := url.Parse("https://api.example.com/users")
    params := url.Values{}
    params.Add("page", "2")
    params.Add("size", "10")
    params.Add("q", "john")
    u.RawQuery = params.Encode()
    fmt.Println(u.String())
}

上述代码构建出完整URL：https://api.example.com/users?page=2&size=10&q=john。其中url.Values确保特殊字符被正确编码，避免因手动拼接导致的安全问题。

常见查询参数用途

分页控制：page、offset、limit、size
搜索过滤：q、keyword、name_like
排序规则：sort、order
字段选择：fields、select

2.4 自定义请求头模拟浏览器行为

在爬虫开发中，服务器常通过请求头（Request Headers）识别客户端身份。为避免被反爬机制拦截，需自定义请求头模拟真实浏览器行为。

常见需设置的请求头字段

User-Agent：标识浏览器类型和操作系统
Accept：声明可接受的响应内容类型
Accept-Language：表示语言偏好
Referer：指示来源页面地址

代码实现示例

import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Referer': 'https://example.com/'
}

response = requests.get('https://target-site.com', headers=headers)

上述代码通过 requests 库发送带有伪造浏览器特征的请求。其中 User-Agent 模拟了主流桌面浏览器，使服务端难以识别为自动化脚本。合理构造请求头可显著提升数据抓取成功率。

2.5 处理GET响应数据与状态码解析

在发起GET请求后，正确解析响应数据和HTTP状态码是确保客户端逻辑准确执行的关键步骤。服务器返回的响应体通常为JSON格式，需进行结构化解析。

常见状态码处理

200 OK：请求成功，可安全解析响应数据
404 Not Found：资源不存在，应提示用户或记录日志
500 Internal Server Error：服务端异常，需触发告警或重试机制

响应数据解析示例

resp, err := http.Get("https://api.example.com/data")
if err != nil {
    log.Fatal(err)
}
defer resp.Body.Close()

if resp.StatusCode == http.StatusOK {
    var result map[string]interface{}
    json.NewDecoder(resp.Body).Decode(&result)
    fmt.Println(result["message"])
} else {
    fmt.Printf("请求失败，状态码: %d\n", resp.StatusCode)
}

上述代码首先检查网络请求是否出错，随后根据状态码判断响应是否成功。仅当状态码为200时，才进行JSON解码，避免对错误响应做无效解析。resp.Body需关闭以释放连接资源。

第三章：POST请求的核心应用

3.1 POST请求与表单数据提交原理

在Web开发中，POST请求常用于向服务器提交数据，尤其适用于表单提交场景。与GET不同，POST将数据放置于请求体中，而非URL，从而提升安全性与传输容量。

表单提交的基本结构

HTML表单通过设置 method="POST" 触发POST请求：

<form action="/submit" method="POST">
  <input type="text" name="username" />
  <input type="password" name="password" />
  <button type="submit">提交</button>
</form>

当用户点击“提交”时，浏览器将输入字段序列化为键值对，并以指定的编码类型（默认 application/x-www-form-urlencoded）发送至服务器。

常见内容类型对比

Content-Type	用途	示例数据格式
application/x-www-form-urlencoded	标准表单提交	username=alice&password=secret
multipart/form-data	含文件上传的表单	分段二进制数据

3.2 发送JSON数据与文件上传示例

在现代Web开发中，客户端常需同时提交结构化数据和文件资源。使用 multipart/form-data 编码格式可实现JSON数据与文件的混合传输。

发送JSON与文件的请求构造

通过 FormData 对象可便捷组织混合数据：

var formData = new FormData();
formData.append("user", JSON.stringify({ name: "Alice", age: 30 }));
formData.append("avatar", fileInput.files[0], "avatar.jpg");

fetch("/upload", {
  method: "POST",
  body: formData
});

上述代码将用户信息以JSON字符串形式提交，并附加一个名为 avatar 的文件字段。服务端需解析 multipart 请求体，分别提取文本字段与二进制文件。

常见字段对照表

字段名	类型	说明
user	string (JSON)	用户信息序列化字符串
avatar	file	上传的头像文件

3.3 模拟登录场景的POST请求实战

在自动化测试或爬虫开发中，模拟用户登录是常见需求。通常需要向服务器发送 POST 请求，携带用户名、密码等表单数据。

构造POST请求

使用 Python 的 requests 库可轻松实现：

import requests

login_url = "https://example.com/login"
payload = {
    "username": "test_user",
    "password": "secure_pass123"
}

session = requests.Session()
response = session.post(login_url, data=payload)

上述代码创建一个持久会话，并发送表单数据。使用 Session 对象能自动管理 Cookies，模拟真实浏览器行为。

关键参数说明

data：用于发送表单编码数据（application/x-www-form-urlencoded）
json：若接口接受 JSON，应使用 json=payload 发送
headers：必要时添加 User-Agent 或 Referer 防止被拦截

第四章：高级HTTP请求操作技巧

4.1 使用Session维持会话状态

在Web应用中，HTTP协议本身是无状态的，为了识别用户并保持登录状态，需要借助Session机制在服务器端存储用户会话数据。

Session工作原理

用户首次访问时，服务器创建唯一Session ID，并通过Set-Cookie响应头发送给浏览器。后续请求携带该Cookie，服务端据此检索存储的会话信息。

代码示例：Go语言实现Session管理

http.SetCookie(w, &http.Cookie{
    Name:  "session_id",
    Value: generateSessionID(),
    Path:  "/",
    MaxAge: 3600,
})

上述代码设置一个有效期为1小时的Session Cookie。Value为生成的唯一标识，Path指定作用路径，MaxAge控制生命周期。

Session数据通常存储在内存、数据库或Redis中
安全性需防范Session劫持，建议启用HttpOnly和Secure标志

4.2 设置超时机制与重试策略

在高可用系统设计中，合理的超时与重试机制能有效提升服务稳定性。直接忽略网络波动可能导致请求堆积，而过度重试则可能加剧系统负载。

超时设置原则

HTTP客户端应设置连接与读写超时，避免无限等待。以Go语言为例：

client := &http.Client{
    Timeout: 5 * time.Second,
}

该配置设定总超时时间为5秒，涵盖连接、TLS握手及响应读取全过程，防止资源长时间占用。

智能重试策略

采用指数退避可减少服务压力：

首次失败后等待1秒重试
每次重试间隔倍增（如2s, 4s）
设置最大重试次数（通常3次）

结合熔断机制，当连续失败阈值达到时暂停发送请求，实现自我保护。

4.3 代理配置与IP轮换技术

在高并发网络请求场景中，代理配置是规避访问限制的关键手段。通过设置HTTP或SOCKS5代理，可隐藏真实客户端IP，提升请求的隐蔽性。

代理配置示例

import requests

proxies = {
    'http': 'http://192.168.1.10:8080',
    'https': 'https://192.168.1.10:8080'
}

response = requests.get('https://api.example.com', proxies=proxies)

上述代码配置了HTTP和HTTPS代理，proxies字典指定了代理服务器地址与端口，适用于requests库的请求转发。

IP轮换策略

使用代理池动态分配IP
结合随机延时避免触发反爬机制
定期检测代理可用性并剔除失效节点

通过维护一个高质量代理IP池，每次请求从池中随机选取代理，实现IP轮换，有效降低被封禁风险。

4.4 HTTPS证书验证与SSL错误处理

在建立安全通信时，HTTPS依赖SSL/TLS协议对服务器身份进行验证。客户端通过检查服务器返回的数字证书是否由可信CA签发、域名是否匹配以及证书是否过期来判断连接安全性。

常见SSL错误类型

证书过期：证书有效期已过，需更新证书
域名不匹配：证书绑定域名与访问地址不符
未知颁发机构：CA未被客户端信任链收录

Go中跳过证书验证示例

transport := &http.Transport{
    TLSClientConfig: &tls.Config{InsecureSkipVerify: true},
}
client := &http.Client{Transport: transport}
resp, _ := client.Get("https://self-signed.badssl.com")

上述代码通过设置InsecureSkipVerify: true跳过证书校验，适用于测试环境，但生产环境禁用，否则将暴露于中间人攻击风险中。

证书链验证流程

根CA → 中间CA → 服务器证书，逐级验证签名合法性

第五章：完整代码模板与最佳实践总结

生产环境推荐的Go Web服务模板

// main.go
package main

import (
    "context"
    "net/http"
    "os"
    "os/signal"
    "time"

    "github.com/gorilla/mux"
    "go.uber.org/zap"
)

func main() {
    logger, _ := zap.NewProduction()
    defer logger.Sync()

    r := mux.NewRouter()
    r.HandleFunc("/api/health", func(w http.ResponseWriter, r *http.Request) {
        w.WriteHeader(http.StatusOK)
        w.Write([]byte(`{"status": "ok"}`))
    })

    srv := &http.Server{
        Handler:      r,
        Addr:         ":8080",
        ReadTimeout:  10 * time.Second,
        WriteTimeout: 10 * time.Second,
    }

    go func() {
        if err := srv.ListenAndServe(); err != nil && err != http.ErrServerClosed {
            logger.Fatal("server error", zap.Error(err))
        }
    }()

    c := make(chan os.Signal, 1)
    signal.Notify(c, os.Interrupt)
    <-c

    ctx, cancel := context.WithTimeout(context.Background(), 30*time.Second)
    defer cancel()
    srv.Shutdown(ctx)
    logger.Info("server shutdown")
}