Python 正则表达式完全指南：从入门到实战

正则表达式（Regular Expression，简称 regex 或 regexp）是文本处理领域的瑞士军刀。在 Python 中，它由标准库 re 模块提供支持，功能强大却常被误用。本文将带你循序渐进地掌握 Python 正则的核心语法、性能陷阱与工程化最佳实践。所有示例均可直接复制到 Python 3.8+ 环境中运行。

一、为什么需要正则

想象一份 10 G 的日志文件，要求你统计所有形如 2025-07-27 12:34:56 的时间戳出现的次数，并提取紧随其后的 IP。
如果手写字符串切片，你会陷入索引地狱；而一条精心构造的正则，可以在十几毫秒内返回结果。
正则的价值就在于：用声明式语法描述文本模式，让机器完成复杂的搜索、验证、替换与切分。

二、re 模块速览

在 Python 中，一切皆对象，正则也不例外。

import re
pattern = re.compile(r'\d+')   # 预编译，提高效率

re.compile 返回一个 Pattern 对象，后续所有操作都围绕它展开。预编译的好处有三点：

将正则字符串编译为字节码，避免重复解析。

获得代码提示与类型检查。

便于集中管理复杂表达式。

三、元字符与基本模式

正则的表达能力来自元字符。最常用的有：

. 匹配除换行外的任意字符

\d 数字，\w 单词字符，\s 空白

^ 行首，$ 行尾

* 零次或多次，+ 一次或多次，? 零次或一次

{m,n} 指定次数区间

[] 字符集，支持范围与取反

() 分组，可捕获与复用

举例：匹配国内 11 位手机号，且前三位为 1 开头，第二位在 3-9 之间：

phone_re = re.compile(r'^1[3-9]\d{9}$')
print(phone_re.fullmatch('13812345678'))   # <re.Match object>
print(phone_re.fullmatch('12812345678'))   # None

这里 fullmatch 要求整个字符串完全符合正则，避免误判子串。

四、分组与捕获

括号不仅能隔离优先级，还能把匹配结果捕获出来，方便后续引用。
假设要解析日志行：

192.168.1.3 - - [27/Jul/2025:13:45:12 +0800] "GET /index.html HTTP/1.1" 200 1024

目标：提取 IP、时间、方法与状态码。

log_re = re.compile(
    r'(?P<ip>\d{1,3}(?:\.\d{1,3}){3}).*?\[(?P<time>.*?)\].*?"(?P<method>\w+).*?" (?P<status>\d{3})'
)
m = log_re.search(line)
print(m.groupdict())
# {'ip': '192.168.1.3', 'time': '27/Jul/2025:13:45:12 +0800', 'method': 'GET', 'status': '200'}

使用命名分组 (?P<name>...) 可以让代码自解释，避免索引混乱。

五、非贪婪与前瞻断言

默认量词是贪婪的：

html = '<div>hello</div><div>world</div>'
print(re.findall(r'<div>.*</div>', html))
# ['<div>hello</div><div>world</div>']

在 .* 后加 ?，即可切换到非贪婪模式，匹配最短的满足条件的子串：

print(re.findall(r'<div>.*?</div>', html))
# ['<div>hello</div>', '<div>world</div>']

有时我们想确认某个模式出现，但又不想把它包含在结果里，这时需要前瞻断言 (?=...) 与 负前瞻 (?!...)
任务：匹配后面不是 cat 的 dog

print(re.search(r'dog(?!cat)', 'dogfox'))  # <re.Match object>
print(re.search(r'dog(?!cat)', 'dogcat'))  # None

同理，(?<=...) 为后顾断言，但 Python 的 re 引擎限制后顾必须是定宽表达式。

六、替换的艺术

re.sub 不只是简单的“查找替换”，其第二个参数可以是函数，实现动态逻辑。
需求：把文本里所有数字替换为其平方，且保留原始宽度（零填充）。

def square(match):
    n = int(match.group())
    width = match.end() - match.start()
    return str(n * n).zfill(width)

text = 'Call 009 at 42'
print(re.sub(r'\d+', square, text))   # Call 000081 at 1764

在数据清洗场景中，这种“可编程替换”能大幅减少中间变量与循环。

七、split 与切分陷阱

str.split 只能按固定分隔符切分，面对“多个空格、制表符混排”就力不从心：

line = 'a   b\tc  d'
print(line.split())          # ['a', 'b', 'c', 'd']  自动合并空白
print(re.split(r'\s+', line)) # ['a', 'b', 'c', 'd']  等价但更通用

注意：如果正则包含捕获组，re.split 会把分组结果也塞进列表，这在某些解析任务中反而带来便利。

八、编译选项与性能

忽略大小写

re.compile(r'python', re.IGNORECASE)

点号匹配换行

re.compile(r'.*', re.DOTALL)

多行模式

re.compile(r'^Error', re.MULTILINE)

性能

尽量预编译复杂正则。

避免在循环内反复 re.compile。

如果文本量极大，考虑第三方库 regex，它完全兼容 re 语法，速度提升 2-10 倍。

九、工程化最佳实践

统一正则仓库
将项目里所有正则集中放在 regexes.py，配合 re.compile 缓存，方便统一测试与热更新。
单元测试
使用 pytest + pytest-regex 插件，或用 YAML 描述用例：

- pattern: '^1[3-9]\d{9}$'
  positive: ['13812345678']
  negative: ['12812345678', '138123456789']

3.可读性优先
复杂正则务必加注释，并利用 re.VERBOSE 开启宽松模式：

email_re = re.compile(r'''
    (?P<local>[A-Za-z0-9._%+-]+)
    @
    (?P<domain>[A-Za-z0-9.-]+\.[A-Z|a-z]{2,})
''', re.VERBOSE | re.IGNORECASE)

4.日志与错误处理
永远捕获 re.error，避免线上崩溃：

try:
    pattern = re.compile(user_input)
except re.error as e:
    logger.error('Invalid regex: %s', e)

十、完整实战：日志 ETL 管道

假设每天产生 100 G Nginx 日志，需要提取 UA 里的浏览器家族并写入 Parquet。
核心正则：

ua_re = re.compile(r'"(?:GET|POST|HEAD)\s+[^\s]+\s+HTTP/\d\.\d"\s+\d{3}\s+\d+\s+"(?:[^"]*)" "(?P<ua>[^"]*)"')

ETL 流程

使用 mmap 把大文件映射到内存，避免逐行读取。
预编译正则，配合 finditer 获取迭代器。
每次匹配后，把 UA 传给 user-agents 第三方库解析家族。
通过 pyarrow 批量写 Parquet，压缩比 5:1，Spark 可直接读取。
在 16 核机器上，单进程可达到 300 MB/s 处理速度；若使用 regex 库 + multiprocessing，可轻松跑满 10 Gbps 网卡。

十一、常见误区与调试技巧

误区一：用正则解析 HTML
正则无法处理嵌套结构，请使用 BeautifulSoup 或 lxml。
误区二：滥用分组
每个捕获组都会消耗内存，对于不需要引用的子表达式，使用非捕获组 (?:...)。
调试工具
- 在线可视化：regex101.com 选择 Python 风格。
- 命令行：python -m re debug 'pattern' 可查看编译后的字节码。