文档章节

正则表达式

wangchen1999
 wangchen1999
发布于 06/19 16:22
字数 1428
阅读 9
收藏 0
点赞 0
评论 0

元字符

元字符,又叫字符集,就是用一些特殊符号表示特定种类的字符或位置。

匹配字符

  • . 匹配除换行符以外的任意字符
  • \w 匹配字母或数字或下划线或汉字
  • \s 匹配任意的空白符
  • \d 匹配数字

匹配位置

  • \b 匹配单词的开始或结束
  • ^ 匹配字符串的开始
  • $ 匹配字符串的结束
  • \G 上一个匹配的结尾(本次匹配开始)
  • \A 字符串开头(类似^,但不受处理多行选项的影响)
  • \Z 字符串结尾或行尾(不受处理多行选项的影响)
  • \z 字符串结尾(类似$,但不受处理多行选项的影响)

重复

  • * 重复零次或更多次
  • + 重复一次或更多次
  • ? 重复零次或一次
  • {n} 重复n次
  • {n,} 重复n次或更多次
  • {n,m} 重复n到m次

字符转义

如果想匹配元字符本身或者正则中的一些特殊字符,使用\转义。例如匹配*这个字符则使用\*,匹配\这个字符,使用\\

需要转义的字符:$()*+.[]?\^{}|

字符类

当需要匹配明确的字符或字符集合时候,就用到字符类。

特殊字符

  • \0hh 8进制值hh所表示的字符
  • \xhh 16进制值hh所表示的字符
  • \uhhhh 16进制值hhhh所表示的Unicode字符
  • \t Tab
  • \n 换行符
  • \r 回车符
  • \f 换页符
  • \e Escape
  • \cN ASCII控制字符。比如\cC代表Ctrl+C
  • \p{name} Unicode中命名为name的字符类,例如\p{IsGreek}

陈列

  • [aeiou] 匹配一个元音字符
  • [.?!] 匹配给定的一个标点

范围

  • [0-9] 匹配0~9的数字,同\d
  • [a-z] 匹配所有小写字母
  • [a-zA-Z] 匹配所有字母
  • [a-z0-9A-Z_\u4E00-\u9FFF] 等同于\w

反义

表示不属于元字符或者字符类的字符

反义元字符

  • \W 匹配任意不是字母,数字,下划线,汉字的字符
  • \S 匹配任意不是空白符的字符
  • \D 匹配任意非数字的字符
  • \B 匹配不是单词开头或结束的位置

反义字符类

  • [^x] 匹配除了x以外的任意字符
  • [^aeiou] 匹配除了aeiou这几个字母以外的任意字符

分枝条件

又叫逻辑运算符,在此XY表示两个表达式

  • XY X紧跟Y
  • X|Y 表示X或Y,从左到右,满足第一个条件就不会继续匹配了。

分组

在这里我把表达式统一以\w为例:

  • (\w) 被一个括号包围起来是一个整体,表示一个分组
  • (\w)(\w) 自动命名分组,第一个小括号是分组1,第二个小括号是分组2
  • (?'Word'\w+)) 表示定义了一个叫做Word的分组
  • (?<Word>\w+)) 表示定义了一个叫做Word的分组
  • (?:\w+) 匹配exp,不捕获匹配的文本,也不给此分组分配组号

后向引用

后面的表达式可以引用前面的某个分组,用\1表示,就好像分组1的值赋值给了\1这个变量,这个变量可以在后面任意位置引用。

  • \1 表示分组1匹配的文本
  • \k<Word> 表示分组Word匹配的文本

匹配重复两个的英文,例如匹配Hello Hellolei123 lei123

  1. (\w+)\s+\1
  2. (?<Word>\w+)\s+\k<Word>

零宽断言(正向和负向)

零宽断言表示匹配字符的时候再添加一些定位条件,使匹配更精准。

  • \w+(?=ing) 匹配以ing结尾的多个字符(不包括ing)
  • \w+(?!ing) 匹配不是ing结尾的多个字符
  •  
  • (?<=re)\w+ 匹配以re开头的多个字符(不包括re)
  • (?<!re)\w+ 匹配不是re开头的多个字符
  •  
  • (?<=\s)\d+(?=\s) 匹配两边是空白符的数字,不包括空白符

贪婪与懒惰

贪婪:匹配尽可能长的字符串

懒惰:匹配尽可能短的字符串

懒惰模式的启用只需在重复元字符之后加?既可。

  • *? 重复任意次,但尽可能少重复
  • +? 重复1次或更多次,但尽可能少重复
  • ?? 重复0次或1次,但尽可能少重复
  • {n,m}? 重复n到m次,但尽可能少重复
  • {n,}? 重复n次以上,但尽可能少重复

处理选项

在表达式里插记号的方式来启用绝大多数的模式,在正则的哪里插入,就从哪里启用。

  1. (?i):忽略大小写(CASE_INSENSITIVE)
  2. (?x):忽略空格字符(COMMENTS)
  3. (?s).匹配任意字符,包括换行符(DOTALL)
  4. (?m):多行模式(MULTILINE)
  5. (?u):对Unicode符大小写不敏感(UNICODE_CASE),必须启用CASE_INSENSITIVE
  6. (?d):只有'\n'才被认作一行的中止(UNIX_LINES)

平衡组/递归匹配

平衡组用于匹配嵌套层次结构,常用于匹配HTML标签(当HTML内容不规范,起始标签和结束标签数量不同时,匹配出正确配对的标签),在此把表达式统一以\w为例。

  • (?'group'\w) 捕获的分组(\w匹配到的内容)命名为group,并压入堆栈
  • (?'-group'\w) 捕获分组(\w匹配到的内容)后,弹出group分组栈的栈顶内容(最后压入的捕获内容),堆栈本来为空,则本分组的匹配失败
  • (?(group)yes|no) 如果group栈非空匹配表达式yes,否则匹配表达式no
  • (?!) 零宽负向先行断言,由于没有后缀表达式,试图匹配总是失败

注释

注释语法:(?#comment) 这个语法的内容会被正则忽略,用于注释含义。可以放在正则表达式的任意位置。

本文转载自:http://luxiaolei.com/regex-guide

共有 人打赏支持
wangchen1999
粉丝 50
博文 207
码字总数 72273
作品 0
程序员
C# WinForm开发系列 - Regular Expression

正则表达式用于字符串处理、表单验证等场合,实用高效。现将一些常用的表达式文章收集于此,以备不时之需。正则表达式能让更多的复杂的搜索和替换功能变成简单的操作。基本说来,正则表达式是...

长征2号
2017/11/07
0
0
正则表达式-正则表达式的创建

正则表达式就是一个字符模式。和String对象类似,在JavaScript中正则表达式也是一个对象,它主要用于字符串的模式匹配。创建正则表达式有两种方式:隐式创建(文字量方法)和显示创建(使用构...

oQo先生
2017/03/27
0
0
javaScript的正则表达式 (一)

本篇文章我们就来介绍javaScript的正则表达式 RegExp对象也称正则表达式 一.什么是正则表达式? 正则表达式是一个描述字符模式的对象。可以处理复杂的字符串,正则表达式用于对字符串模式匹配...

博为峰教研组
2016/11/08
18
0
精通正则表达式的 12 个有用资源

任何开发项目,不管使用的何种编程语言,经常都需要从给定的数据中提取一些值然后进行验证。例如输入的校验、过滤 URL 变量之类。而正则表达式用来处理这样的任务可以说是轻而易举,而且代码...

oschina
2013/07/31
12.8K
56
Python之re模块 - 正则表达式操作

一、前言 字符串是编程时涉及到的最多的一种数据结构,对字符串进行操作的需求几乎无处不在。而正则表达式就是一种用来描述字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符...

skypeGNU1
2016/06/22
0
0
linux grep正则学习(转载)

虽然正则表达式经常都在用,但是很少能够静下心来仔细的总结一下。最近看了一个台湾人的网站叫做鸟哥Linux私房菜,关于正则表达式的描述挺详细的。在此,我进行一下总结,如果想仔细的学习正...

开卷书生
2014/08/01
0
0
PHP 正则表达式匹配 preg_match 与 preg_match_all 函数

正则表达式在 PHP 中的应用 在 PHP 应用中,正则表达式主要用于: 正则匹配:根据正则表达式匹配相应的内容 正则替换:根据正则表达式匹配内容并替换 正则分割:根据正则表达式分割字符串 在...

ywppengpeng
2016/11/14
2
0
正则&highlight高亮实现(干货)

写完正则表达式以后在浏览器上检测实在是不方便,于是就写了一个JS正则小工具,大大地提高了学习效率。学习之余用正则实现了一个highlight高亮demo,欢迎交流。 什么是正则表达式? 简单的说:...

牧云云
2017/01/12
0
0
java语言中的----正则表达式

day14 java语言中的----正则表达式 一、概述: 正则表达式在Java语言中也算是一个比较重要的模块,前面我们学习了一些关于正则表达式的基础,在登录注册功能中使用比较广泛,所以说在这儿我就...

孤独一夜
2017/10/08
0
0
Scala学习之字符串篇(六):使用正则表达式

在Scala中你只需要在正则表达式字符串后边加上一个".r"就可以使用正则表达式了。 下面介绍正则表达式常用的两个匹配方法findFirstIn和findAllIn。 方法findFirstIn可以匹配到第一个符合正则表...

阿拉德大陆的魔法师
2016/12/08
65
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Jvm堆内存的划分结构和优化,垃圾回收详解(详细解答篇)

在JVM中堆空间划分如下图所示 上图中,刻画了Java程序运行时的堆空间,可以简述成如下2条 1.JVM中堆空间可以分成三个大区,新生代、老年代、永久代 2.新生代可以划分为三个区,Eden区,两个幸...

嘻哈开发者
11分钟前
0
0
CentOS 7.4 设置系统字符编码

1.语言变量LANG在 /etc/locale 文件中。 2.可以通过/ect/profile 来修改LC_TYPE 变量的值 添加如下代码 export LC_ALL="zh_CN.GBK" export LANG="zh_CN.GBK" 到profile文件中,变量的可以修改...

qimh
12分钟前
0
0
Kafka相关使用

安装前提,需要有jdk环境,还有zookeeper环境 zookeeper下载地址:https://www.apache.org/dyn/closer.cgi/zookeeper/ zookeeper安装参考:https://www.jianshu.com/p/f7037105db46 kafka的下......

朝如青丝暮成雪
13分钟前
0
0
CentOS7 解决无法使用tab自动补全 tab代码提示

一、前言 对于刚刚开始学习linux的新人来说,linux的一切都显着神秘,只能惊叹于大牛在Linux上行云流水的操作。今天介绍一下在linux中自动补全的功能。 对于新人来说,在不懂得技巧的情况下,...

ziluopao
19分钟前
0
0
redis安装

https://www.cnblogs.com/feijl/p/6879929.html

ghou-靠墙哭
19分钟前
0
0
Spring核心——注解自动装载

从配置上扩展 之前的文章介绍了Spring的IoC容器配置管理方面的详细内容,需要了解的可以从IoC容器的设计模式开始阅读。在介绍基于注解配置的配置之前我们再重复一下在之前提到的基本认识: ...

随风溜达的向日葵
22分钟前
1
0
ElasticSearch学习(8)—— SearchType

Elasticsearch有四种类型的SearchType 1、query and fetch 向索引的所有分片(shard)都发出查询请求,各分片返回的时候把元素文档(document)和计算后的排名信息一起返回。这种搜索方式是最...

叶枫啦啦
24分钟前
0
0
MYSQL备份工具-mysqldump

介绍 mysqldump 是文本备份还是二进制备份 它是文本备份,如果你打开备份文件你将看到所有的语句,可以用于重新创建表和对象。它也有 insert 语句来使用数据构成表。 语法 mysqldump 的语法是...

郭恩洲_OSC博客
26分钟前
0
0
我的第一个go web框架

使用了beego等go web开发框架之后,感觉各种不方便,尤其是在接收参数、和自定义输出的时候,各种难受,定义各种model,这不是找事情嘛??尤其是在角色权限控制的时候我也感觉力不从心。。。...

独坐苔痕但观罗敷
26分钟前
0
0
自动代码生成图形化工具

自动生成Spring代码 https://github.com/EliMirren/Spring-generator 自动生成Vertx https://gitee.com/duhua/vertx-generator...

奋斗的小牛
29分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部