【Python基础】GIL 锁是什么及其对爬虫的影响

1. GIL 是什么?

GIL 全称 Global Interpreter Lock,全局解释器锁

CPython 解释器中,同一时刻通常只允许 一个线程执行 Python 字节码

也就是说,即使你开启了多个线程:

import threading

这些线程在执行 Python 代码时,并不是多个线程真正同时跑 Python 字节码,而是需要轮流拿到 GIL 才能执行。


2. 为什么 Python 要有 GIL?

主要原因是:保证 CPython 内部对象的线程安全

Python 中很多对象都有引用计数,例如:

a = []
b = a

CPython 需要维护对象的引用计数。如果多个线程同时修改引用计数,就可能出错。

为了简单、稳定地保护解释器内部状态,CPython 使用了 GIL。


3. GIL 对爬虫有什么影响?

爬虫大多数场景属于 IO 密集型任务,比如:

  • 发 HTTP 请求
  • 等服务器响应
  • 读取网页内容
  • 写入数据库
  • 读写文件

这些操作大部分时间都在“等待”,不是一直占用 CPU。

所以:

GIL 对普通爬虫影响不大,多线程仍然有效。

例如:

import requests
from concurrent.futures import ThreadPoolExecutor

def fetch(url):
    r = requests.get(url, timeout=10)
    return r.text

urls = ["https://example.com"] * 20

with ThreadPoolExecutor(max_workers=10) as pool:
    results = list(pool.map(fetch, urls))

这个场景下,多线程可以提升效率,因为线程在等待网络响应时会释放 GIL,让其他线程继续执行。


4. GIL 对哪些爬虫场景影响较大?

如果爬虫中包含大量 CPU 密集型任务,GIL 影响就比较明显。

比如:

  • 大量加解密计算
  • 大量 JS 逆向算法计算
  • 图片识别
  • OCR
  • 大规模正则匹配
  • HTML 超大文本解析
  • 数据清洗计算量很大
  • 压缩、解压缩、哈希计算

例如:

def calc_sign(data):
    # 大量 CPU 计算
    pass

这种任务用多线程不一定能提升性能,因为多个线程会争抢 GIL。


5. 如何绕过 GIL?

方案一:使用多进程

多进程是最常见方案。

每个进程都有自己独立的 Python 解释器和 GIL,因此可以真正利用多核 CPU。

from multiprocessing import Pool

def parse_html(html):
    # CPU密集型解析
    return html.count("div")

if __name__ == "__main__":
    html_list = ["<div></div>" * 100000] * 8

    with Pool(4) as pool:
        result = pool.map(parse_html, html_list)

    print(result)

适合:

  • JS 加密计算
  • 大量数据清洗
  • OCR
  • 复杂解析

方案二:使用 C/C++ 扩展或第三方库

部分底层库会释放 GIL,例如:

  • NumPy
  • lxml
  • pandas 部分操作
  • cryptography 部分加密计算

如果核心计算在 C 层完成,可能不会长期占用 GIL。


方案三:把任务拆给外部服务

例如爬虫项目中:

  • Python 负责调度和请求
  • Node.js 执行 JS 加密逻辑
  • Go 服务负责高并发请求
  • Java 服务负责复杂业务处理

这种方式适合大型项目。


6. 总结

GIL 是 CPython 中的全局解释器锁,它保证同一时刻只有一个线程执行 Python 字节码。
对爬虫来说,如果是网络请求、数据库读写这类 IO 密集型任务,影响不大,因为线程等待 IO 时会释放 GIL,多线程仍然能提升效率。
但如果爬虫中有大量 CPU 密集型任务,比如 JS 加密计算、图片识别、大规模数据清洗,多线程会受 GIL 限制,无法充分利用多核。
解决方式包括使用多进程、asyncio 异步 IO、C 扩展库,或者将计算任务拆分到 Node、Go 等外部服务中。


感谢关注【遇事不決洛必達】!欢迎点赞收藏和交流指正,我会持续分享我的学习经验和心得。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

遇事不決洛必達

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值