文档章节

常用正则表达式校验

goldbin
 goldbin
发布于 2017/07/21 11:43
字数 2151
阅读 4
收藏 0

本文章由尚学堂旗下云数学院周老师做内容指导,薛同学编辑,如需转载,请标明出处。

QQ技术交流群:299142667

 

前言

使用man grep查看grep的帮助文档,有如下内容:

可以看出,正则表达式由三类,分别是

  •  基本的正则表达式(Basic Regular Expression 又叫 Basic RegEx  简称 BREs)
  •  扩展的正则表达式(Extended Regular Expression 又叫 Extended RegEx 简称 EREs)
  •  Perl 的正则表达式(Perl Regular Expression 又叫 Perl RegEx 简称 PREs)

由于BREs语法中需要大量转义字符,导致正则表达式不易看懂,因此本文使用Perl类型的正则表达式。

1.校验MAC地址

我们常见的MAC地有如下两种格式:

48-5D-60-DE-3D-C5

48:5D:60:61:3D:C5

我们以第一种为例,即一共有6组十六进制的数中间由短横线“-”连接。每组十六进制的数据可以看成是由取值范围为a-f、A-F或0-9的两个字符组成。

首先,用正则表达式表示a-f、A-F或0-9的两个字符

[a-fA-F0-9] [a-fA-F0-9]

可以发现[a-fA-F0-9]重复了两次,因此上述表达式可以写成

[a-fA-F0-9] {2}

然后,用正则表达式表示六组a-f、A-F或0-9的两个字符中间用短横线连接:

[a-fA-F0-9]{2}-[a-fA-F0-9]{2}-[a-fA-F0-9]{2}-[a-fA-F0-9]{2}-[a-fA-F0-9]{2}-[a-fA-F0-9]{2}

上述正则表达式太臃肿了,一组两位的其实我们可以看成

[a-fA-F0-9]{2}-重复了5次(注意后边有个短横线),最后又加了一组[a-fA-F0-9]{2},而其中的0-9可以用\d代替。基于这样的思路,对上述正则表达式进行修改后如下所示:

([a-fA-F\d]{2}-){5}[a-fA-F\d]{2}

最后,我们检验下上述正则表达式是否满足要求。创建一个mac.txt,内容如下所示:

48-5D-60-61-3D-C5

08-D4-hM-1D-AD-AE

28-D2-44-B7-AD-EC

XX-5D-60-61-3D-C5

其中第2和第4行是错误的MAC地址,检测结果如下:

 

由以上结果可以看出上述正则表达式是正确的。

 

2.校验邮箱地址

下表是常见的邮箱格式

@前缀

纯数字

1234567@qq.com

纯字母

zhang123@qq.com

字母数字混合

zhang123@qq.com

带点的

zhang.san@qq.com

带下划线 

zhang_san@qq.com

带连接线

zhang-san@qq.com

@后缀

二级域名

123456@qq.com

三级域名

123456@vip.qq.com

根据上述常见邮箱格式,我们可以总结出邮箱格式符合的规则

1) 邮箱必有一个@

2) 邮箱@前缀由数字或字母开头

3) 邮箱@前缀由多个字母、数字、段横线-、下划线_、英文句号.自由拼接而成

4) 邮箱@后缀由两级或三级域名组成,其中每个域名中间由英文句号“.”隔开, 而每级域名都是由字母或数字组成

根据以上规则,可以得到如下正则表达式:

1) 邮箱必有一个@ ,对应正则表达式如下所示:

@

2) 邮箱@前缀由数字或字母开头,对应正则表达式如下所示:

^[a-zA-Z0-9]@

其中^表示开始位置,[a-zA-Z0-9]表示数字或字母

3) 邮箱@前缀由多个字母、数字、段横线-、下划线_、英文句号.自由拼接而成

^[a-zA-Z0-9][a-zA-Z0-9-\._]+@

其中+表示重复1到多次

4) 邮箱@后缀由两级或三级域名组成,其中每个域名中间由英文句号“.”隔开,而每级域名都是由字母或数字组成。

@([a-zA-Z0-9]+\.){1,2}[a-zA-Z0-9]+$

其中([a-zA-Z0-9]+\.){1,2}可以拆分成如下内容:

[a-zA-Z0-9] 数字或字母

[a-zA-Z0-9]+ 数字或字母重复1到多次

[a-zA-Z0-9]+.数字或字母重复1到多次后边加上英文句号.

([a-zA-Z0-9]+\.){1,2}数字或字母重复1到多次后边加上英文句号.做为一个整体重复1到2次。

最后的[a-zA-Z0-9]+表示以多个数字或字母结尾。

将上述邮箱@前缀的正则表达式和邮箱@后缀的正则表达式组合在一起,同时由于0-9的数字可以用\d表示,可以用\d替换内容中的0-9,最后得到的表达式我们想要的可以匹配邮箱的正则表达式,如下所示:

^[a-zA-Z\d][a-zA-Z\d-\._]+@([a-zA-Z\d]+\.){1,2}[a-zA-Z\d]+$

下面我们来检验下写出来的正则表达式:

新建一个mail.txt,内容如下:

12345@qq.com

zhangsan@qq.com

zhang.san@qq.com

zhang_san@qq.com

zhang123@qq.com

123zhang@qq.com

zhangsan@vip.qq.com

zhang-san@qq.com

_dfsdfds@qq.com

#ddddd@qq.com

zhangsan@vip.qq.com.

其中最后三行为错误的格式,使用正则表达式进行校验:

 

由上述结果可以看出,我们的正则表达式是符合要求的。

 

3.校验手机号

要校验手机号,我们首先需要知道手机号的组成格式。目前国内的手机号有以下格式:

1)由数字1开头

2)第二位数字的取值范围是3、4、5、7、8、

3)最后为9位数字

根据以上规则,写出对应的正则表达式

1) 由数字1开头

^1

2) 第二位数字的取值范围是3、4、5、7、8、

[34578]

3) 最后为9位数字

[0-9]{9}$

其中[0-9]{9}表示0-9的数字取值重复9次,$表示结尾。由于0-9的数字可以由\d表示,上述内容等价于

\d{9}$

将上述正则表达式组合在一起,就可以得到我们想要的正则表达式,如下所示:

^1[34578]\d{9}$

下面开始进行校验,新建一个phone.txt,内容如下:

138537721989

146398702123

12200993333

23848270281

13849199233

d333300-903

其中只有倒数第二行的号码是正确的,使用正则表达式进行校验:

 

由上述结果可以看出,我们的正则表达式是符合要求的。

 

4.校验IP地址

对IP地址进行严格校验比较麻烦,首先要确定一个标准可用的IP地址需要满足如下条件:

1) 由四组不大于255的数字组成,中间由“.”连接

2) 取值范围为0.0.0.0-255.255.255.255

一个IP地址可以看成是四组0-255的数组中间由.隔开,进一步可以看成是0-255.重复三次(注意0-255后有点),后边再跟上一个0-255的数字。

下面对0-255的数字可能的组成情况进行分析:

数字

取值

正则表达式

 

三位数

25开头

250-255

25[0-5]

20-24开头

200-249

2[0-4][0-9]

1开头

100-199

1[0-9][0-9]等价于1\d{2}

两位数

10-99

[1-9]\d

一位数

0-9

\d

 

将上述五种情况组合在一起就是我们想要的结果,这里注意五种情况之间是或的关系,用|连接,可以得到(0-255)的正则表达式如下:

(25[0-5])|(2[0-4]\d)|(1\d{2})|([1-9]\d)|\d

以上是一组0-255的数据,上边已经分析了思路,IP由三组(0-255).和一组0-255组成,三组(0-255).就是(0-255).重复三次。

首先是(0-255).的表达式:

((25[0-5])|(2[0-4]\d)|(1\d{2})|([1-9]\d)|\d)\.

然后重复三次:

(((25[0-5])|(2[0-4]\d)|(1\d{2})|([1-9]\d)|\d)\.){3}

最后加上一组(0-255):

(((25[0-5])|(2[0-4]\d)|(1\d{2})|([1-9]\d)|\d)\.){3}((25[0-5])|(2[0-4]\d)|(1\d{2})|([1-9]\d)|\d)

为了更严谨点,需要加上开始和结束限定符,如下所示:

^(((25[0-5])|(2[0-4]\d)|(1\d{2})|([1-9]\d)|\d)\.){3}((25[0-5])|(2[0-4]\d)|(1\d{2})|([1-9]\d)|\d)$

下面开始验证,新建一个ip.txt,内容如下:

290.244.1900.3

254.263.233.0

192.168.266.900

aa.3.0.1

2.2.2.3b

127.02.0.00

192.168.212.11

0.0.0.0

255.255.255.255

其中只有最后三行的IP地址是正确的,我们检验下刚才写的正则表达式:

 

可以看到输出结果达到了预期的效果,证明正则表达式是有效的。

 

如需转载请标明出处:https://my.oschina.net/yunshuxueyuan/blog 

QQ技术交流群:129518033

 

© 著作权归作者所有

goldbin
粉丝 0
博文 13
码字总数 26896
作品 0
海淀
CTO(技术副总裁)
私信 提问
20个常用正则表达式

正则表达式经常被用于字段或任意字符串的校验,如下面这段校验基本日期格式的JavaScript代码: var reg = /^(\d{1,4})(-|/)(\d{1,2})\2(\d{1,2})$/; var r = fieldValue.match(reg); if(r==n...

易达
2016/06/08
72
0
web项目常用小工具(持续更新)

最近写项目时,要求在客户端输入时进行信息校验,下面是收集常用的几个JS正则表达式,以及java获取ip的方法亲测可用,后面将常用的小工具持续在次做记录。 1.正则表达式 手机验证规则 电话号...

Mr_欢先生
2017/12/19
0
0
qdbp/zhh.validate.js

zhh.validate.js ZHH表单校验插件 是一个WEB前端校验插件,提供表单字段的配置式校验功能。 使用方便,所有校验参数都提供data-API,常用的校验功能不需要写一行JavaScript代码,即可完全通过...

qdbp
2018/07/31
0
0
Dojo学习6 功能强大的文本框:dijit.form.ValidationTextbox

功能强大的文本框:dijit.form.ValidationTextbox 这个文本输入框的功能比较强大,关键是它能够提供一些常用的验证和大小写转换。下面介绍一个例子和一些常用的属性: <html> <head> <meta ...

元来元去
2010/11/02
861
0
知道这20个正则表达式,能让你少写1,000行代码

正则表达式,一个十分古老而又强大的文本处理工具,仅仅用一段非常简短的表达式语句,便能够快速实现一个非常复杂的业务逻辑。熟练地掌握正则表达式的话,能够使你的开发效率得到极大的提升。...

豆花饭烧土豆
2016/09/24
121
0

没有更多内容

加载失败,请刷新页面

加载更多

skywalking(容器部署)

skywalking(容器部署) 标签(空格分隔): APM [toc] 1. Elasticsearch SkywalkingElasticsearch 5.X(部分功能报错、拓扑图不显示) Skywalking需要Elasticsearch 6.X docker network create......

JUKE
25分钟前
5
0
解决Unable to find a single main class from the following candidates [xxx,xxx]

一、问题描述 1.1 开发环境配置 pom.xml <plugin><groupId>org.springframework.boot</groupId><artifactId>spring-boot-maven-plugin</artifactId><!--一定要对上springboot版本号,因......

TeddyIH
25分钟前
5
0
Dubbo服务限制大数据传输抛Data length too large: 13055248, max payload: 8388608解决方案

当dubbo服务提供者向消费层传输大数据容量数据时,会受到Dubbo的限制,报类似如下异常: 2019-08-23 11:04:31.711 [ DubboServerHandler-XX.XX.XX.XXX:20880-thread-87] - [ ERROR ] [com.al...

huangkejie
28分钟前
6
0
HashMap和ConcurrentHashMap的区别

为了线程安全,ConcurrentHashMap 引入了一个 “分段锁” 的概念。具体可以理解把一个大的 map 拆分成 N 个小的 Map 。最后再根据 key.hashcode( )来决定放到哪一个 hashmap 中去。 hashmap ...

Garphy
29分钟前
4
0
购买SSL证书需要注意哪些问题

为了保障网站的基本安全,为网站部署SSL证书,已经是一种常态了。各大浏览器对于安装了SSL证书的网站会更友好,并且不会发出“不安全”的提示。部署SSL证书之前首先得去给网站购买一个SSL证书...

安信证书
58分钟前
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部