正则表达式和字符串处理

上传人:沈*** 文档编号:158678798 上传时间:2022-10-05 格式:DOC 页数:12 大小:194KB
收藏 版权申诉 举报 下载
正则表达式和字符串处理_第1页
第1页 / 共12页
正则表达式和字符串处理_第2页
第2页 / 共12页
正则表达式和字符串处理_第3页
第3页 / 共12页
资源描述:

《正则表达式和字符串处理》由会员分享,可在线阅读,更多相关《正则表达式和字符串处理(12页珍藏版)》请在装配图网上搜索。

1、第一章正则表达式概述正则表达式(Regular Expression)起源于人类神经系统的研究。正则表达式的定义有以下几种:l用某种模式去匹配一类字符串的公式,它主要是用来描述字符串匹配的工具。l描述了一种字符串匹配的模式。可以用来检查字符串是否含有某种子串、将匹配的子串做替换或者从中取出符合某个条件的子串等。l由普通字符(a-z)以及特殊字符(元字符)组成的文字模式,正则表达式作为一个模版,将某个字符模式与所搜索的字符串进行匹配。l用于描述某些规则的的工具。这些规则经常用于处理字符串中的查找或替换字符串。也就是说正则表达式就是记录文本规则的代码。l用一个字符串来描述一个特征,然后去验证另一个

2、字符串是否符合这个特征。以上这些定义其实也就是正则表达式的作用。第二章正则表达式基础理论这些理论将为编写正则表达式提供法则和规范,正则表达式主要包括以下基础理论:l元字符l字符串l字符转义l反义l限定符l替换l分组l反向引用l零宽度断言l匹配选项l注释l优先级顺序l递归匹配21元字符在正则表达式中,元字符(Metacharacter)是一类非常特殊的字符,它能够匹配一个位置或字符集合中的一个字符,如:、w等。根据功能,元字符可以分为两种类型:匹配位置的元字符和匹配字符的元字符。211匹配位置的元字符包括:、$、和b。其中(脱字符号)和$(美元符号)都匹配一个位置,分别匹配行的开始和结尾。比如,

3、string匹配以string开头的行,string$匹配以string结尾的行。string$匹配以string开始和结尾的行。单个$匹配一个空行。单个匹配任意行。b匹配单词的开始和结尾,如:bstr匹配以str开始的单词,但b不匹配空格、标点符号或换行符号,所以,bstr可以匹配string、string fomat等单词。bstr正则表达式匹配的字符串必须以str开头,并且str以前是单词的分界处,但此正则表达式不能限定str之后的字符串形式。以下正则表达式匹配以ing结尾的字符串,如string、This is a string等Ingb正则表达式ingb匹配的字符串必须以ing结尾,

4、并且ing后是分界符,以下正则表达式匹配一个完整的单词:bstringb。2.1.2匹配字符的元字符匹配字符的元字符有7个:.(点号)、w、W、s、S、d和D。其中点号匹配除换行之外的任意字符;w匹配单词字符(包括字母、汉字、下划线和数字);W匹配任意非单词字符、s匹配任意的空白字符,如空格、制表符、换行等;S匹配任意的非空白字符;d匹配任意数字字符;D匹配任意的非数字字符。如:.$匹配一个非空行,在该行中可以包含除了换行符以外的任意字符。w$匹配一个非空行,并且该行中只能包含字母、数字、下划线和汉字中的任意字符。bawwwwwwb匹配以字母a开头长度等于7的任意单词bawwwdddDb匹配以

5、字母a开头后面有3个字符三个数字和1个非数字字符长度等于8的单词2.2字符类字符类是一个字符集合,如果该字符集合中的任何一个字符被匹配,则它会找到该匹配项。字符类可以在(方括号)中定义。如:012345可以匹配数字0到5中的任意一个。可以匹配HTML标签中的H1到H6。Jjack可以匹配字符串Jack或jack。但是,由于表达式0123456789书写非常不方便,连字符(-)便应用而生,0-9等价于0123456789。a-z匹配任何小写字母,A-Z匹配任意大写字母。如果要在字符类中包含连字符,则必须包含在第一位,如:-a表示表达式匹配-或者a。在字符类中如果是字符类的第一个字符表示否定该字符

6、串,也就是匹配该字符串外的任意字符,如:abc匹配除了abc以外的任意字符,-匹配除了连字符以外的任意字符,ab匹配a之后不是b的字符串。表2-1常用的字符类字符或表达式说明w匹配单词字符(包括字母、数字、下划线和汉字)W匹配任意的非单词字符(包括字母、数字、下划线和汉字)s匹配任意的空白字符,如空格、制表符、换行符、中文全角空格等S匹配任意的非空白字符d匹配任意数字D匹配任意的非数字字符abc匹配字符集中的任何字符abc匹配除了字符集中包含字符的任意字符0-9a-z_A-Z_匹配任何数字、字母、下划线。等同于wpname匹配name指定的命名字符类中的任何字符Pname匹配除了name指定的

7、命名字符类中之外的任何字符.匹配除了换行符号之外的任意字符0-9a-zA-Z_等同于W2.3字符转义表2-2:常用的转义字符表达式可匹配r, n代表回车和换行符t制表符代表 本身还有其他一些在后边章节中有特殊用处的标点符号,在前面加 后,就代表该符号本身。比如:, $ 都有特殊意义,如果要想匹配字符串中 和 $ 字符,则表达式就需要写成 和 $。表达式可匹配匹配 符号本身$匹配 $ 符号本身.匹配小数点(.)本身2.4反义在使用正则表达式时,如果需要匹配不在字符类指定的范围内的字符时,可以使用反义规则。其实我们已经使用过反义表达式,如W、S、D、abc等。常用的反义表如下:表2-3:常用的反义

8、表达式字符或表达式说明W匹配任意不是字母,数字,下划线,汉字的字符S匹配任意不是空白符的字符D匹配任意非数字的字符B匹配不是单词开头或结束的位置x匹配除了x以外的任意字符aeiou匹配除了aeiou这几个字母以外的任意字符2.4限定符正则表达式的元字符一次只能匹配一个位置或一个字符,如果需要匹配零个一个或多个字符时,则需要使用限定符。限定符用于指定允许特定字符或字符集自身重复出现的次数。如n表示出现n次;n,表示重复至少n次;n,m表示至少出现n次最多m次。常用限定符如下表:表2-4:常用限定符字符描述*匹配前面的子表达式零次或多次。例如,zo* 能匹配 z 以及 zoo。 * 等价于0,。+

9、匹配前面的子表达式一次或多次。例如,zo+ 能匹配 zo 以及 zoo,但不能匹配 z。+ 等价于 1,。?匹配前面的子表达式零次或一次。例如,do(es)? 可以匹配 do 或 does 中的do 。? 等价于 0,1。nn是一个非负整数。匹配确定的n次。例如,o2 不能匹配 Bob 中的 o,但是能匹配 food 中的两个 o。n,n是一个非负整数。至少匹配n次。例如,o2, 不能匹配 Bob 中的 o,但能匹配 foooood 中的所有 o。o1, 等价于 o+。o0, 则等价于 o*。n,mm和n均为非负整数,其中n=m。最少匹配n次且最多匹配m次。刘, o1,3 将匹配 fooooo

10、od 中的前三个 o。o0,1 等价于 o?。请注意在逗号和两个数之间不能有空格。*?尽可能少的使用重复的第一个匹配+?尽可能少的使用重复但至少使用一次?如果有可能使用零次重复或一次重复。n?等同于nn,?尽可能少的使用重复但至少重复n次n,m?介于n次和m次之间,尽可能少的使用重复。2.5贪婪、惰性和支配性匹配惰性匹配:先看字符串中的第一个字母是不是一个匹配,如果单独一个字符还不够就读入下一个字符,如果还没有发现匹配,就不断地从后续字符中读取,只道发现一个合适的匹配,然后开始下一次的匹配。贪婪匹配:先看整个字符串是不是一个匹配,如果没有发现匹配,它去掉字符串中最后一个字符并再次尝试,如果还没

11、有发现匹配,那么再次去掉最后一个字符,这个过程会一直重复直到发现一个匹配或字符串不剩一个字符为止。支配性匹配:只尝试匹配整个字符串,如果整个字符串不能产生一个匹配,则不再进行尝试。我们普通的字符类均是贪婪匹配,如果在字符类后加个问号(?)则表示懒惰匹配,要成为支配性匹配则在懒惰匹配后加个问号(?).2.6替换正则表达式0d2-d8和0d3-d7分别匹配区号为3位和4位的固定电话号码,如果需要同时匹配区号为3位和4位的固定电话号码,可以使用替换满足这一需求。最简单的替换是使用竖线(|)表示。以下表达式匹配了区号为3位号码为8位和区号为4位号码为7位的的电话号码,区号和号码均使用-连接,0d2-d

12、8|0d3-d7表2-5常用替换字符或表达式说明|匹配竖线(|)左侧或右侧(?(表达式)yes|no)表达式要么与yes部分匹配要么与no部分匹配,其中no部分可以省略。(?(name)yes|no)以name命名的字符串要么与yas部分匹配,要么与no部分pp,其中no部分可以省略2.7分组分组又称为子表达式,即把一个正则表达式的全部或部分分成一个或多个组。其中分组使用圆括号(),分组后把圆括号中的表达式看做一个整体来处理,比如:(abc)1,2表示abc出现一次或两次的字符串,其中把abc看做一个整体来进行匹配。2.8后向引用当一个正则表达式被分组后,每一个组将自动被赋予一个组号,该组号可

13、以代表该组的表达式。其中,组号的编制规则为:从左到右,以分组的左括号为标志,第一个组号为1,第二个分组号为2,以此类推。如:(A?(B?(C?)将产生3个组号,第一组为:(A?(B?(C?);第二组为:(B?(C?);第三组为:(C?)。反向引用提供了查找重复字符组的方便方法,反向引用可以使用数字命名(默认名称)的组号,也可以使用指定命名的组号。比如:b(w)1b匹配两个字符一样的单词,此表达式和b(w)wb不一样,后者两个字符可以不一样。再看,b(w)(d)12b,匹配一个字符和一个数字然后重复字符和数字。bw*(w+)1b匹配以至少两个字符一样结尾的单词。b(w+)bs+1b此正则表达式匹

14、配的具体过程如下:a.表达式b(w+)b匹配一个单词并且单词的长度至少为1b.表达式s+匹配一个或多个空白字符c.表达式1将重复子表达式(w+)匹配的内容,及匹配重复的单词d.匹配单词的结束位置。分组不仅可以使用数字作为组号,还可以使用自定义名称作为组号。以下两个正则表达式都是将分组后的子表达式w+命名为word.(?w+)(?wordw+)因此b(w+)bs+1b和以下正则表达式是等价的,都匹配重复的单词:b(?w+)bs+kb表2-5后向引用说明表表达式说明数字使用数字命名的后向引用k使用指定命名的后向引用表2-6常用分组说明字符说明(expression)匹配字符串expression,

15、并将匹配的文本保存到自动命名的组里(? expression)匹配字符串expression,并将匹配的文本保存到以name命名的变量中,该名称不能包含标点符号,不能以数字开头。(?:expression)匹配字符串expression,不保存匹配的文本,也不分配组号(?!expression)匹配后面不是字符串expression的位置(?=expression)匹配字符串expression前面的位置(?=expression)匹配字符串expression后面的位置(?expression)只匹配expression一次2.9零宽度断言元字符、b、$都匹配一个位置,并且这个位置满足一定条

16、件。在此把满足一个条件称为断言或零宽度断言。正则表达式中零宽度断言说明如下表:表2-6零宽度断言字符(断言)说明匹配行的开始位置$匹配行的结束位置A匹配必须出现在字符串的开头Z匹配必须出现在字符串的结尾或字符串结尾处的换行符(n)前z匹配必须出现在字符串的结尾G匹配必须出现在上个匹配结束的地方b匹配单词的开始或结束的位置B匹配不是单词的开始或结束的位置表达式(?=expression)、(?!expression)、(?=expression)、和(?!expression)都是匹配一个位置。下面将详细介绍表达式(?=expression)和(?=expression)。(?=expressi

17、on)又称为零宽度正预测先行断言,它断言自身位置的前面能够匹配表达式expression。以下正则表达式匹配以ed结尾的单词的前面部分:bw+(?=edb)。(?=expression)又称为零宽度正回顾后发断言,它断言自身位置的后面能够匹配表达式expression,以下正则表达式匹配以an开头的单词的后面部分,即匹配单词除了字符串an之外的部分:(?=ban)w+b2.10负向零宽度断言零宽度断言只能指定或匹配一个位置,而负向零宽度断言与零宽度断言正好相反,它能指定或匹配不是一个位置,即所说的反义。特别是在匹配字符串中不包含指定的字符时,负向零宽度断言特别有用,比如要匹配断言字符a之后不能

18、是字符b的表达式为:bw*a(?!b)w*b因此该表达式匹配一个单词,并且这个包含字符a并且a后面不是紧随着b表达式(?!expression)称为负向零宽度断言,它断言自身位置后不能包含expression。以下正则表达式匹配一个z字符串,字符串前三位为字符并且后边不是紧随着数字:bw3 (?!d+);表达式(?!expression)称为零宽度回顾后发断言,它断言自身位置的前面不能匹配字符串expression。以下表达式匹配不以数字开头、并且字符串中只包含大写字母、小写字母或下划线。(?!d+) a-z-A-Z+2.11匹配选项匹配选项可以指定正则表达式匹配中的行为,如忽略大小写、处理多

19、行、处理单行、从右到左开始匹配等。常用的匹配选项如下:表2-7常用匹配选项RegexOptions枚举值内联标志简单说明ExplicitCapturen只有定义了命名或编号的组才捕获IgnoreCasei不区分大小写IgnorePatternWhitespacex消除模式中的非转义空白并启用由#标记的注释。MultiLinem多行模式,其原理是修改了和$的含义SingleLines单行模式,和MultiLine相对应2.12优先级正则表达式从左到右进行计算,并遵循优先级顺序,这与算术表达式非常类似。下表从最高到最低说明了各种正则表达式运算符的优先级顺序:表2-8:优先级说明运算符说明转义符()

20、, (?:), (?=), 括号和中括号*, +, ?, n, n, n,m限定符, $, anymetacharacter, anycharacter定位点和序列|替换字符的优先级比替换运算符高,替换运算符允许“m|food”与“m”或“food”匹配。若要匹配“mood”或“food”,请使用括号创建子表达式,从而产生“(m|f)ood”。2.12递归匹配递归匹配在匹配具有嵌套结构的字符串时特别有效。比如算术表达式(1+2)*(3+4)具有嵌套结构,如果要使用正则表达式检查该表达式是否正确,则可以使用递归匹配解决该问题。这里介绍的平衡组语法是由.Net Framework支持的;其它语言库

21、不一定支持这种功能,或者支持此功能但需要使用不同的语法。有时我们需要匹配像( 100 * ( 50 + 15 ) )这样的可嵌套的层次性结构,这时简单地使用(.+)则只会匹配到最左边的左括号和最右边的右括号之间的内容(这里我们讨论的是贪婪模式,懒惰模式也有下面的问题)。假如原来的字符串里的左括号和右括号出现的次数不相等,比如( 5 / ( 3 + 2 ) ) ),那我们的匹配结果里两者的个数也不会相等。有没有办法在这样的字符串里匹配到最长的,配对的括号之间的内容呢?为了避免(和(把你的大脑彻底搞糊涂,我们还是用尖括号代替圆括号吧。现在我们的问题变成了如何把xx aa aa yy这样的字符串里,

22、最长的配对的尖括号内的内容捕获出来?这里需要用到以下的语法构造: (?group)把捕获的内容命名为group,并压入堆栈(Stack) (?-group)从堆栈上弹出最后压入堆栈的名为group的捕获内容,如果堆栈本来为空,则本分组的匹配失败 (?(group)yes|no)如果堆栈上存在以名为group的捕获内容的话,继续匹配yes部分的表达式,否则继续匹配no部分 (?!)零宽负向先行断言,由于没有后缀表达式,试图匹配总是失败如果你不是一个程序员(或者你自称程序员但是不知道堆栈是什么东西),你就这样理解上面的三种语法吧:第一个就是在黑板上写一个group,第二个就是从黑板上擦掉一个gro

23、up,第三个就是看黑板上写的还有没有group,如果有就继续匹配yes部分,否则就匹配no部分。我们需要做的是每碰到了左括号,就在压入一个Open,每碰到一个右括号,就弹出一个,到了最后就看看堆栈是否为空如果不为空那就证明左括号比右括号多,那匹配就应该失败。正则表达式引擎会进行回溯(放弃最前面或最后面的一些字符),尽量使整个表达式得到匹配。 #最外层的左括号 * #最外层的左括号后面的不是括号的内容 ( ( (?Open) #碰到了左括号,在黑板上写一个Open * #匹配左括号后面的不是括号的内容 )+ ( (?-Open) #碰到了右括号,擦掉一个Open * #匹配右括号后面不是括号的内容 )+ )* (?(Open)(?!) #在遇到最外层的右括号前面,判断黑板上还有没有没擦掉的Open;如果还有,则匹配失败 #最外层的右括号

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!