爬虫---正则表达式、re模块

最新推荐文章于 2026-06-20 14:05:09 发布

原创最新推荐文章于 2026-06-20 14:05:09 发布 · 204 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#正则表达式 #python #爬虫

爬虫专栏收录该内容

5 篇文章

订阅专栏

本文介绍了Python中的正则表达式及其re模块的使用。正则表达式是一种强大的文本处理工具，适用于从长字符串中提取信息。文中列举了常用的元字符如`.`、`w`、`d`等，并解释了量词的概念，如`*`、`+`、`?`。同时，提到了在线测试正则的工具以及re模块的几个核心函数，如`match`、`search`、`findall`和`sub`。此外，还强调了正则表达式的优点和学习难度，并给出了相关学习资源。

活动地址：CSDN21天学习挑战赛

一、正则表达式

Regular Expression,正则表达式，一种使用表达式的方式对字特串进行匹配的语法规则；
我们抓取到的网页源代码本质上就是一个超长的字符串，想从里面提取内容用正则再合适不过了；

正则的优点速度快;效率高;准确性高；
正则的缺点新手上手难度有点儿高；

不过只要掌握了正则编写的逻辑关系，写出一个提取页面内容的正则其实并不复杂；
正则的语法:使用元字符进行排列组合用来匹配字符串。

在线测试正则表达式：https://46ol. aschina.net/regexhttps://regex101.com/

元字符:具有固定含义的特殊符号


.	匹配除换行符以外的任意字符
\w	匹配字母、数字、下划线
\d	匹配数字
\s	匹配任意的空白符
\n	匹配一个换行符
\t	匹配一个制表符
^	匹配字符串的开始
$	匹配字符串的结束
\W	匹配非字符串、数字、下划线
\D	匹配非数字
\S	匹配非空白符
a\|b	匹配字符a或b
( )	匹配括号内的表达式，也表示一个组
[...]	匹配字符组中的字符
[^...]	匹配除了字符组中字符的所有字符

量词：控制前面的元字符出现的次数


*	重复零次或更多次
+	重复一次或更多次
？	重复零次或一次
{n}	重复n次
{n，}	重复n次或更多次
{n，m}	重复n到m次