Java用正则表达式匹配顺序_java使用正则表达式匹配不包含某个规则的字符串

本文通过实例演示如何使用正则表达式过滤特定日期的日志条目,并排除包含特定字符串的记录,介绍了前瞻语法的应用。

0add4e11ae9a4eb01617e64865eec0ec.png

测试数据:

4657419388222e0a7e804bb5d4e51c31.png

例如上面这几条简单的日志条目,我们想实现两个目标:

1、把8号的数据过滤掉;

2、把那些不包含robots.txt字符串的条目给找出来(只要Url中包含robots.txt的都给过滤掉)。

前瞻的语法是:(?!匹配模式)

我们先来实现第一个目标——匹配不以特定字符串开头的条目。

这里我们因为要排除一段连续的字符串,因此匹配模式非常简单,就是2009-07-08。实现如下:^(?!2009-07-08).*?$

用Expresso我们可以看到结果确实过滤掉8号的数据。

接下来,我们来实现第二个目标——排除包含特定字符串的条目。

按照我们上面写法,我照葫芦画瓢了一下:^.*?(?!robots.txt).*?$

这段正则用大白话描述就是:开头任意字符,然后后面不要跟着robots.txt连续字符串,然后再跟着任意个字符,字符串结尾。

运行测试,结果发现:

616e2947a9062858a283c9e69605c1ad.png

没有达到我们想要的效果。这是为什么呢?我们给上面的正则表达式加上两个捕获分组调试一下:^(.*?)(?!robots.txt)(.*?)$

测试结果:

40b048849a57178c85fc06173aa17b8b.png

我们看到,第一个分组啥都没有匹配到,而第二个分组却匹配了整个字符串。再回过头来好好分析一下刚才那个正则表达式。

实际上,当正则引擎解析到A区 域的时候,就已经开始执行B区域的前瞻工作。这个时候发现当A区域为Null的时候匹配成功——.*本来就允许匹配空字符,前瞻条件又满足,A区域后面紧 跟着的是“2009”字符串,而并不是robots。因此整个匹配过程成功匹配到所有条目。

93bfe0b452b2098f82205f2e1bd5b7ec.png

分析出原因之后我们对上述的正则进行修正,将.*?移入前瞻表达式,如下:^(?!.*?robots).*$

测试结果:

6107577855d57425afa97100a4751c85.png

推荐教程:java开发入门

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值