文档章节

正则指引之量词

柳哥
 柳哥
发布于 2015/01/21 11:55
字数 2851
阅读 116
收藏 0

一般形式

假如我们要验证邮政编码:201203,100858,所以用正则表达式来表示就是 \d\d\d\d\d\d,只有同时满足“长度是6个字符”和“每个字符都是数字”两个条件,匹配才成功。虽然这不难理解,但 \d 重复6次,读写都不方便。为此,正则表达式提供了量词(quantifier)。那么上面的例子就可以简写为 \d{6},它使用阿拉伯数字,更简洁也更直观。

//使用量词减化字符组
String text = "510850";
Pattern p = Pattern.compile("\\d{6}");
Matcher m = p.matcher(text);
System.out.println(m.matches());    //true

量词还可以表示不确定的长度,其通用形式是{m,n},其中m和n是两个数字(有些人习惯在代码中的逗号之后添加空格,这样更好看,但是量词中的逗号之后绝不能有空格),它限定之前的元素能够出现的次数,m是下限,n是上限(均为闭区间)。比如 \d{4,6},就表示这个数字字符串的长度最短是4个字符,最长是6个字符。如果不确定长度的上限,也可以省略,只指定下限,写成 \d{n,},比如 \d{4,}表示“数字字符串的长度必须在4个字符以上”。

量词                                                       
说明                                                                                        
{n}
之前的元素必须出现n次
{m,n}
之前的元素最少出现m次,最多出现n次
{m,}
之前的元素最少出现m次,出现次数无上限
{0,n}
之前的元素可以不出现,也可以出现,最多出现n次

常用量词

{m,n}是通用形式的量词,正则表达式还有三个常用量词,分别是 +? 。它们的形态虽然不同于{m,n},功能却是相同的(也可以把它们理解为“量词简记法”),具体说明如下:

常用量词            
{m,n}等价形式                 
说明                                                      

{0,}
可能出现,也可能不出现,出现次数没有上限

{1,}
至少出现1次,出现次数没有上限

{0,1}
至多出现一次,也可能不出现

在实际应用中,在很多情况下只需要表示这三种意思,所以常用量词的使用频率要高于{m,n}。

点号

前一节讲到了各种字符组,与它相关的还有一个特殊的元字符:点号(.)。一般文档都说,点号可以匹配“任意字符”,点号确实可以匹配“任意字符”,常见的数字,字母,各种符号都可以匹配,但有一个字符不能由点号匹配,就是换行符 \n。这个字符平时看不见,却存在,而且在处理时并不能忽略。

如果非要匹配“任意字符”,有两种办法:可以指定使用单行匹配模式,在这种模式下,点号可以匹配换行符;或者使用上一节介绍“自制”通配字符组 [\s\S] (也可以使用 [\d\D][\w\W]),正好涵盖了所有字符。示例:

//换行符的匹配
String text = "\n";
Pattern p = Pattern.compile("[\\d\\D]");
Matcher m = p.matcher(text);
System.out.println(m.matches());    //true
Pattern p1 = Pattern.compile(".");
Matcher m1 = p1.matcher(text);
System.out.println(m1.matches());      //false

滥用点号的问题

因为点号能匹配几乎所有的字符,所以实际应用中许多人图省事,随意使用 .* 或 .+ ,结果却事与愿违,下面以双引号字符串为例来说明。我们一般使用表达式 ”[^"]*" 匹配双引号字符串,而“图省事” 的做法是 “.*”  。通常这么用是没有问题的,但也可能有意外

用“.*”匹配双引号字符串,不但可以匹配正常的双引号字符串“quoted string”,还可以匹配格式错误的字符串 "quoted string" and another" 。这是为什么呢?原因涉及正则表达式的匹配原理

在正则表达式 “.*” 中,点号可以匹配任何字符,*表示可以匹配的字符串长度没有限制,所以 .* 在匹配过程结束以前,每遇到一个字符(除去无法匹配的 \n),.*都可以匹配,但是遇到第一个 " 时,到底是匹配这个字符还是忽略它,还是将其交给之后的 " 来匹配呢?

答案是,具体选择取决于所使用的量词。在正则表达式中的量词分为几类,之前介绍的量词都可以归到一类,叫做匹配优先量词(贪婪量词)。匹配优先量词,顾名思义,就是在拿不准是否要匹配的时候,优先尝试匹配,并且记下这个状态,以备将来“反悔”。

来看表达式“.*”对字符串“quoted string”的匹配过程。一开始, “ 匹配 “ ,然后轮到字符q,.*可以匹配它,也可以不匹配,因为使用了匹配优先量词,所以.*先匹配q,并且记录下这个状态「q也可能是.*不应该匹配的」;接下来是字符u,.*可以匹配它,也可以不匹配,因为使用了匹配优先量词,所以.*先匹配u,并且记录下这个状态『u也可能是.*不应该匹配的』; .......现在轮到了字符g,.*可以匹配它,也可以不匹配,因为使用了匹配优先量词,所以 .*先匹配g,并且记录下这个状态『g也可能是.*不应该匹配的』。最后是末尾的",.*可以匹配它,也可以不匹配,因为使用了匹配优先量词,所以.*先匹配 “,并且记录下这个状态『'也可能是.*不应该匹配的』。这时候,字符串之后已经没有字符了,但正则表达式中还有 ” 没有匹配,所以只能查询之前保存备用的状态,看看能不能退回几步,照顾 " 的匹配。查询到最近保存的状态是:「"也可能是.*不应该匹配的」。于是让.* 反悔对 " 的匹配,把 " 交给 “ ,测试发现正好能匹配,所以整个匹配宣告成功。这个反悔的过程,专业术语叫做回溯(backtracking)。

忽略优先量词

比如,用一个正则表达式匹配下面这段HTML源代码:

<script type="text/javascript">
    alert("some punctuation <>/");
</script>

开头和结尾的tag都容易匹配,中间的代码要比较麻烦,因为点号. 不能匹配换行符,所以必须使用[\s\S],[\d\D]或者[\w\W]。

<script type="text/javascript">[\s\S]*</script>

这个表达式确实可以匹配上面的Javascript代码。但是如果遇到更复杂的情况就会出错,比如针对下面这段HTML代码:

<script type="text/javascript">
alert("1");
</script>
<br />
<script type="text/javascript">
alert("2");
</script>

如果用上面的表达式来匹配这段HTML代码,会一次性匹配两段Javascript代码,甚至包含之间的非Javascript代码按照匹配原理,[\s\S]*先匹配所有的文本,回溯时交还最后的</script>,整个表达式的匹配就成功了,逻辑就是如此,无可改进。而且,这个问题也不能模仿之前双引号字符串匹配,用[^"]*区配<script...>和</script>之间的代码,因为排除型字符组只能排除单个字符,[^</script>]不能表示“不是</script>的字符串”。

换个角度来看,通过改变[\s\S]*的匹配策略解决问题在不确定是否要匹配的场合,先尝试不匹配的选择,测试正则表达式中后面的元素,如果失败,再退回来尝试 [\s\S]* 匹配,如此就没有问题了。循着这个思路,正则表达式中还提供了忽略优先量词(lazy quantifier 或 reluctant quantifier,也就有翻译为懒惰量词),如果不确定是否要匹配,忽略优先量词会选择“不匹配”的状态,再尝试表达式中之后的元素,如果尝试失败,再回溯,选择之前保存的“匹配”的状态。

对[\s\S]*来说,把*改为*?就是使用了忽略优先量词,*?限定的元素出现次数范围与*完全一样,都表示“可能出现,也可能不出现,出现次数没有上限”。区别在于,在实际匹配过程中,遇到[\s\S]能匹配的字符,先尝试“忽略”,如果后面的元素(具体到这个表达式中,是</script>)不能匹配,再尝试匹配,这样就保证了结果的正确性,示例如下:

//忽略优先量词
String text = "<script type=\"text/javascript\">" +
        "alert(\"1\")" +
        "</script>" + 
        "<br />" + 
        "<script type=\"text/javascript\">"+
        "alert(\"2\")"+
        "</script>";
Pattern p = Pattern.compile("<script type=\"text/javascript\">[\\s\\S]*?</script>");
Matcher m = p.matcher(text);
while(m.find()){
    System.out.println(m.group());
}

表:匹配优先量词与忽略优先量词

匹配优先量词        
忽略优先量词             
限定次数                                                 
*
*?
可能不出现,也可能出现,出现次数没有上限
+
+?
至少出现1次,出现次数没有上限
?
??
至多出现1次,也可能不出现
{m,n}
{m,n}?
出现次数最少为m次,最多为n次
{m,}
{m,}?
出现次数最少为m次,没有上限
{0,n}
{0,n}?
可能不出现,也可能出现,最多出现n次

从上表可以看到,匹配优先量词与忽略优先量词逐一对应,只是在对应的匹配优先量词之后添加?,两者限定的元素能出现的次数也一样,遇到不能匹配的情况同样需要回溯; 唯一的区别在于,忽略优先量词会优先选择“忽略”,而匹配优先量词会优先选择“匹配”

转义

前面讲解了匹配优先量词和忽略优先量词,现在介绍量词的转义。在正则表达式中,*,+,?等作为量词的字符具有特殊意义,但有些情况下只希望表示这些字符本身,此时就必须使用转义,也就是在它们之前添加反斜线 \

对常用量词所使用的字符+,*,? 来说,如果希望表示这三个字符本身,直接添加反斜线,变为 \+,\*,\? 即可。但是在一般形式的量词{m,n}中,虽然具有特殊含义的字符不止一个,转义时却只需要给第一个 { 添加反斜线即可,也就是说,如果希望匹配字符串{m,n},正则表达式必须写成 \{m,n} 。

另外值得一提的是忽略优先量词的转义,虽然忽略优先量词也包含不只一个字符,但是在转义时却不像一般形式的量词那样,只转义第一个字符即可,而需要将两个量词全部转义。举例来说,如果要匹配字符串 *?,正则表达式就必须写作 \*\? ,而不是 \*? ,因为后者的意思是“*这个字符可能出现,也可能不出现”。各种量词的转义如下:

量词                                    
转义形式                                                                    
{n}
\{n}
{m,n}
\{m,n}
{m,}
\{m,}
{0,n}
\{0,n}
*
\*
+
\+
?
\?
*?
\*\?
+?
\+\?
??
\?\?

之前还介绍了点号 . ,所以还必须讲解点号的转义:点号(.)是一个元字符,它可以匹配除换行符之外的任何字符,所以如果只想匹配点号本身,必须将它转义为 \. 。因为未转义的点号可以匹配任何字符,其中也可以包含点号,所以经常有人忽略了对点号的转义。


© 著作权归作者所有

柳哥
粉丝 207
博文 405
码字总数 347782
作品 0
杭州
技术主管
私信 提问
Java正则系列: (2)量词

翻译说明 : 贪婪型, 最大匹配方式; : 懒惰型, 最小匹配方式; : 独占型, 全部匹配方式; 也翻译为[]; 这3种量词, 是修饰量词的量词, 可以理解为正则格式重复的匹配类型。 量词 量词(Quantifier...

renfufei
2018/01/11
0
0
小心别落入正则回溯陷阱

不知才哪儿看来的: 如果你有一个问题,你想到可以用正则来解决,那么你有两个问题了。 回溯 对于正则而言,回溯并不是必需的,这跟具体的正则引擎有关。简单地说,正则引擎分为NFA和DFA。这...

Hoyho
2016/07/13
31
0
正则之基本入门

以前看了许许多多的正则教程,收货并不多,往往都是蜻蜓点水,一点就过。事实上,正则用处真的超级大,比如匹配innerHTML的内容,以及表单验证,也是非他莫属。这里,我结合js,对正则进行一...

Seas0n_
2016/03/01
37
0
《JavaScript 正则表达式迷你书》知识点小抄本

介绍 这周开始学习老姚大佬的《JavaScript 正则表达式迷你书》 , 然后习惯性的看完一遍后,整理一下知识点,便于以后自己重新复习。 我个人觉得:自己整理下来的资料,对于知识重现,效果不...

大灰狼的小绵羊哥哥
04/14
0
0
PHP学习历程之——正则表达式

首先搞清楚3个问题: 为什么要用正则表达式? 什么是正则表达式? 如何使用正则表达式? 正则表达式的适用场合: 正则表达式最初起源数学领域的一些研究,1956年数学家Stephen Kleene在论文《...

CoderAndy
2014/04/08
52
0

没有更多内容

加载失败,请刷新页面

加载更多

为构建社交关系链手淘都做了啥?

作者|王卫(泓冰) 出品|阿里巴巴新零售淘系技术部 01、淘宝社交关系推荐的背景 1、互联网下半场到来:互联网的下半场,人口红利消失,各大平台需要对用户做精细化运营,用户的增长和留存是每一...

阿里云官方博客
30分钟前
5
0
Iaas/Paas/Saas有何区别,一个故事告诉你

云计算有三种服务模式,IaaS,PaaS和SaaS。单从英文全称去理解,他们分别是“基础设施即服务”“平台即服务”和“软件即服务”。 这样翻译过来可不好理解,但是我们可以举个例子。现在我们就以...

JEPaaS云平台
37分钟前
6
0
温度传感器怎么测好坏

  温度传感器也就是负温度系数热敏电阻,温度越高,电阻越小,测量时先看其阻值能不能根据温度的变化而变,再看其变化的阻值是不是在标定的范围之内。   有以下四种方法;   1、若是有...

仙溪
38分钟前
5
0
zk中ZooKeeperServer解析

内部类 ChangeRecord 处理PrepRP和FinalRP之间的信息 static class ChangeRecord { ChangeRecord(long zxid, String path, StatPersisted stat, int childCount, List<ACL> acl) {......

writeademo
48分钟前
3
0
LNMP---安装worrdpress、discuz,域名重定向,用户认证,nginx访问日志

4.34 安装wordpress 4.35 安装discuz 4.36 域名重定向 4.37 用户认证 4.38 nginx访问日志 一、安装wordpress 创建博客: 添加一个博客的虚拟主机 blog.tobe.com.conf 做如下更改 安装博客wor...

tobej
50分钟前
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部