活动地址:CSDN21天学习挑战赛
目录
一、正则表达式
Regular Expression,正则表达式,一种使用表达式的方式对字特串进行匹配的语法规则;
我们抓取到的网页源代码本质上就是一个超长的字符串,想从里面提取内容用正则再合适不过了;
- 正则的优点速度快;效率高;准确性高;
- 正则的缺点新手上手难度有点儿高;
不过只要掌握了正则编写的逻辑关系,写出一个提取页面内容的正则其实并不复杂;
正则的语法:使用元字符进行排列组合用来匹配字符串。
在线测试正则表达式:https://46ol. aschina.net/regex
https://regex101.com/
元字符:具有固定含义的特殊符号
| . | 匹配除换行符以外的任意字符 |
| \w | 匹配字母、数字、下划线 |
| \d | 匹配数字 |
| \s | 匹配任意的空白符 |
| \n | 匹配一个换行符 |
| \t | 匹配一个制表符 |
| ^ | 匹配字符串的开始 |
| $ | 匹配字符串的结束 |
| \W | 匹配非字符串、数字、下划线 |
| \D | 匹配非数字 |
| \S | 匹配非空白符 |
| a|b | 匹配字符a或b |
| ( ) | 匹配括号内的表达式,也表示一个组 |
| [...] | 匹配字符组中的字符 |
| [^...] | 匹配除了字符组中字符的所有字符 |
量词:控制前面的元字符出现的次数
| * | 重复零次或更多次 |
| + | 重复一次或更多次 |
| ? | 重复零次或一次 |
| {n} | 重复n次 |
| {n,} | 重复n次或更多次 |
| {n,m} | 重复n到m次 |
贪婪匹配和惰性匹配
| .* | 贪婪匹配 |
| .*? | 惰性匹配 |
二、re模块
一定不要忘记安装与导入re库哦!
1、re.match(pattern, string, flags=0)
re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。
- pattern: 匹配的正则表达式。
- string: 要匹配的字符串。
- flags: 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
2、re.search(pattern, string, flags=0)
re.search 扫描整个字符串并返回第一个成功的匹配;匹配成功re.search方法返回一个匹配的对象,否则返回None。
3、re.findall(pattern, string, flags=0)
在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果有多个匹配模式,则返回元组列表,如果没有找到匹配的,则返回空列表。
4、re.sub(pattern, repl, string, count=0, flags=0)
将匹配到的数据进行替换
- pattern: 正则中的模式字符串。
- repl: 替换的字符串,也可为一个函数。
- string: 要被查找替换的原始字符串。
- count: 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。
- flags: 编译时用的匹配模式,数字形式。
5、re.split(pattern, string[, maxsplit=0, flags=0])
根据匹配进行切割字符串,并返回一个列表
- maxsplit:分割次数,maxsplit=1 分割一次,默认为 0,不限制次数。
6、re.finditem(pattern, string, flags=0)
在字符串中找到正则表达式所匹配的所有子串,并返回一个迭代器,从迭代器中拿到内容需要用.group()
7、re.compile(pattern,flags)
compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,预加载正则表达式。
更详细内容可以点击链接进行学习 http://t.csdn.cn/q8sQ2
本文介绍了Python中的正则表达式及其re模块的使用。正则表达式是一种强大的文本处理工具,适用于从长字符串中提取信息。文中列举了常用的元字符如`.`、`w`、`d`等,并解释了量词的概念,如`*`、`+`、`?`。同时,提到了在线测试正则的工具以及re模块的几个核心函数,如`match`、`search`、`findall`和`sub`。此外,还强调了正则表达式的优点和学习难度,并给出了相关学习资源。

2万+

被折叠的 条评论
为什么被折叠?



