正则表达式简析
所谓正则表达式,就是用一个特定的表达式完成字符串匹配的工作,我们可以规定什么字符以什么方式出现,出现多少次,前后需要有什么,然后提取出符合这个要求的字符串或者判断某个字符串是否符合这个要求。
元字符
| 代码/语法 | 说明 |
|---|
| . | 匹配除换行符以外的任意字符 |
| \w | 匹配字母或数字或下划线或汉字 |
| \s | 匹配任意的空白符 |
| \d | 匹配数字 |
| \b | 匹配单词的开始或结束 |
| ^ | 匹配字符串的开始 |
| $ | 匹配字符串的结束 |
一下是上面部分字符的反义
| 代码/语法 | 说明 |
|---|
| \W | 匹配任意不是字母,数字,下划线,汉字的字符 |
| \S | 匹配任意不是空白符的字符 |
| \D | 匹配任意非数字的字符 |
| \B | 匹配不是单词开头或结束的位置 |
还有一组具有反义的表达式:
| 代码/语法 | 说明 |
|---|
| [aeiou] | 匹配aeiou中任一字符 |
| [^aeiou] | 匹配除了aeiou这几个字母以外的任意字符 |
转义字符
| 代码/语法 | 说明 |
|---|
| \a | 响铃 |
| \t | 制表符 |
| \r | 回车符 |
| \n | 换行符 |
| \f | 换页符 |
| \b | 退格 |
| \e | ESC |
| \v | 垂直制表符 |
| \cC | 控制字符(如ctrl+c) |
| \040 | 八进制(0开头) |
| \x20 | 十六进制(x开头) |
| \uA0FF | Unicode字符 |
| \G | 当前搜索的开头 |
| \A | 必须出现在字符串开头 |
| \Z | 必须实现在字符串结尾或\n之前 |
| \z | 必须实现在字符串结尾 |
| 注1 | 在[]中,正则表达式中有含义的字符都要再前方加\转义。如\写作\\ |
| 注2 | \b在[]中才表示退格,在外面表示单词边界 |
| 注3 | 正则表达式不允许双引号中出现单引号 |
注意换行的回车不是一个东西,虽然我们看上去是一样的。这个和编码发展历史有关,区别见下表:
| Unicode序列 | 正则 | 名称 | 简写 | 描述 |
|---|
| U+000DU+000A | (\r\n) | 回车换行 | CRLF | Windows,DOS中的文本文件 |
| U+000D | (\r) | 回车 | CR | 旧版的MacOS中的文本文件 |
| U+000A | (\n) | 换行 | LF | Unix,Linux,BSD和OSx中的文本文件 |
限定符
贪婪的
| 代码/语法 | 说明 |
|---|
| * | 重复零次或更多次 |
| + | 重复一次或更多次 |
| ? | 重复零次或一次 |
| {n} | 重复n次 |
| {n,} | 重复n次或更多次 |
| {n,m} | 重复n到m次 |
非贪婪的
| 代码/语法 | 说明 |
|---|
| *? | 重复任意次,但尽可能少重复 |
| +? | 重复1次或更多次,但尽可能少重复 |
| ?? | 重复0次或1次,但尽可能少重复 |
| {n,m}? | 重复n到m次,但尽可能少重复 |
| {n,}? | 重复n次以上,但尽可能少重复 |
分组
我们已经提到了怎么重复单个字符,但如果想要重复多个字符又该怎么办?你可以用小括号来指定子表达式(也叫做分组),然后你就可以指定这个子表达式的重复次数了。 比如
(?
^abc{2,} (?
^a(bc){2,} (?
每一个()中的变量都会被分配一个编号((?:exp)除外),按()出现顺序,从左到右,从外到内编号,从1开始。编号0默认代表整个表达式。可以利用\+ 编号的形式访问对应编号的匹配。例如:
<([^>]*)>[^<>]*</\1> (?#匹配一对不含子标签的xml标签及里面的内容)
在.Net中,可以用(?<name>exp)为表达式命名,此时,该表达式也同时具有编号,可以用\k<name>访问这个表达式。需要注意的是,系统会按从左到右,从外到内的顺序给没有名字的表达式编号,然后再从头开始按从左到右,从外到内的顺序给有名字的表达式编号。
当然还有一些有意义的括号,除了(?:exp)以外,都会带有编号。下面是完整的分组说明:
| 代码/语法 | 说明 |
|---|
(exp) | 普通分组 |
(?<name>exp) | 名为name的分组 |
(?:exp) | 匹配字符串exp,但不为其分配组号 |
零宽度断言
何为断言:断言某个位置会出现,或不会出现某个模式,但不去匹配这个模式。当断言不成功时,不再匹配。
| 代码/语法 | 说明 |
|---|
(?=exp) | 匹配字符串exp前面的位置 |
(?<=exp) | 匹配字符串exp后面的位置 |
(?!exp) | 匹配后面不是字符串exp的位置 |
(?<!exp) | 匹配前面不是字符串exp的位置 |
(?>exp) | 只匹配exp一次 |
逻辑运算符 或
递归匹配
这个和上面的分组命名不矛盾,这个就是那个部分的扩展。
| 代码/语法 | 说明 |
|---|
| (?exp) | 把匹配的内容命名为name,入栈 |
| (?<-name>exp’) | 从栈中弹出一个内容 |
| (?(name) yes | no) | 如果栈中存在名为name的内容就匹配yes部分,否则匹配no部分,这里yes和no分别是2段表达式 |
运算符优先级
从上到下从高到低,同一高度顺序运算
| 优先级 |
|---|
| \ 转义字符 |
| () , [] |
| * , + , ? , {n}, {n, } , {n, m} |
| ^ , $ , \元字符 |
| | |
常用的正则表达式
验证数字类型输入
- 数字:
^[0-9]*$ - n位的数字:
^\d{n}$ - 至少n位的数字:
^\d{n,}$ - m-n位的数字:
^\d{m,n}$ - 零和非零开头的数字:
^(0|[1-9][0-9]*)$ - 非零开头的最多带两位小数的数字:
^([1-9][0-9]*)+(.[0-9]{1,2})?$ - 带1-2位小数的正数或负数:
^(\-)?\d+(\.\d{1,2})?$ - 正数、负数、和小数:
^(\-|\+)?\d+(\.\d+)?$ - 有两位小数的正实数:
^[0-9]+(.[0-9]{2})?$ - 有1~3位小数的正实数:
^[0-9]+(.[0-9]{1,3})?$ - 非零的正整数:
^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$ - 非零的负整数:
^\-[1-9][]0-9″*$ 或 ^-[1-9]\d*$ - 非负整数:
^\d+$ 或 ^[1-9]\d*|0$ - 非正整数:
^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$ - 非负浮点数:
^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$ - 非正浮点数:
^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$ - 正浮点数:
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$ - 负浮点数:
^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$ - 浮点数:
^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$
验证字串类型输入
- 汉字:
^[\u4e00-\u9fa5]+$ - 英文和数字:
^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$ - 长度为3-20的所有字符:
^.{3,20}$ - 由26个英文字母组成的字符串:
^[A-Za-z]+$ - 由26个大写英文字母组成的字符串:
^[A-Z]+$ - 由26个小写英文字母组成的字符串:
^[a-z]+$ - 由数字和26个英文字母组成的字符串:
^[A-Za-z0-9]+$ - 由数字、26个英文字母或者下划线组成的字符串:
^\w+$ 或 ^\w{3,20}$ - 中文、英文、数字包括下划线:
^[\u4E00-\u9FA5A-Za-z0-9_]+$ - 中文、英文、数字但不包括下划线等符号:
^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$ - 可以输入含有^%&’,;=?$\”等字符:
[^%&',;=?$\x22]+ - 禁止输入含有~的字符:
[^~\x22]+
验证特殊类型输入
- Email地址:
^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$ - 域名:
[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.? - InternetURL:
[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$ - 手机号码:
^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$ - 电话号码(“XXX-XXXXXXX”、”XXXX-XXXXXXXX”、”XXX-XXXXXXX”、”XXX-XXXXXXXX”、”XXXXXXX”和”XXXXXXXX):
^($$\d{3,4}-)|\d{3.4}-)?\d{7,8}$ - 国内电话号码(0511-4405222、021-87888822):
\d{3}-\d{8}|\d{4}-\d{7} - 身份证号(15位、18位数字):
^\d{15}|\d{18}$ - 短身份证号码(数字、字母x结尾):
^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$ - 帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):
^[a-zA-Z][a-zA-Z0-9_]{4,15}$ - 密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):
^[a-zA-Z]\w{5,17}$ - 强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间):
^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$ - 日期格式:
^\d{4}-\d{1,2}-\d{1,2} - 一年的12个月(01~09和1~12):
^(0?[1-9]|1[0-2])$ - 一个月的31天(01~09和1~31):
^((0?[1-9])|((1|2)[0-9])|30|31)$ - 钱的输入格式:1到3个数字,后面跟着任意个逗号+3个数字,逗号成为可选,而不是必须。小数可有可无,但最多2位:
^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$ - xml文件:
^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$ - 中文字符的正则表达式:
[\u4e00-\u9fa5] - 双字节字符:
[^\x00-\xff] - 空白行的正则表达式:
\n\s*\r - HTML标记的正则表达式:
<(\S*?)[^>]*>.*?</\1>|<.*? /> - 首尾空白字符的正则表达式:
^\s*|\s*$或(^\s*)|(\s*$) - 腾讯QQ号:
[1-9][0-9]{4,} - 中国邮政编码:
[1-9]\d{5}(?!\d) - IPv4地址:
\d+\.\d+\.\d+\.\d+ - IPv4地址:
((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))