新聞中心
本文和大家重點(diǎn)討論一下Perl正則表達(dá)式,確切地說(shuō)是Dosshell和Unixshell使用的Perl正則表達(dá)式符號(hào),Perl的Perl正則表達(dá)式規(guī)則與這兩些shell的都有所不同,但Perl的Perl正則表達(dá)式影響最大,幾乎成了業(yè)界標(biāo)準(zhǔn)。

站在用戶(hù)的角度思考問(wèn)題,與客戶(hù)深入溝通,找到橋西網(wǎng)站設(shè)計(jì)與橋西網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗(yàn),讓設(shè)計(jì)與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個(gè)性化、用戶(hù)體驗(yàn)好的作品,建站類(lèi)型包括:網(wǎng)站制作、成都網(wǎng)站建設(shè)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣、域名注冊(cè)、網(wǎng)站空間、企業(yè)郵箱。業(yè)務(wù)覆蓋橋西地區(qū)。
Perl正則表達(dá)式(RegularExpression,regex)
如果要問(wèn)我Perl語(yǔ)言的優(yōu)點(diǎn),我會(huì)說(shuō)有三個(gè)半。前三個(gè)是Perl正則表達(dá)式、哈希、引用,那半個(gè)是Map,因?yàn)檫€不大會(huì)用,不太說(shuō)得出它的秒處,所以算半個(gè)。其實(shí)哈希、引用、Map都算是數(shù)據(jù)結(jié)構(gòu)的范疇;Perl正則表達(dá)式和它們差異比較大。人類(lèi)的思維里有很多Perl正則表達(dá)式的痕跡,甚至用這種方式訓(xùn)練下一代。比如一位完全文科思維的幼兒園教師,也會(huì)教育她的學(xué)生從一桶積木里找出一個(gè)紅的方塊來(lái)。"紅而且方的積木",這就是一個(gè)自然語(yǔ)言的Perl正則表達(dá)式。Perl正則表達(dá)式也經(jīng)常被稱(chēng)為模式,用來(lái)描述或者匹配一系列符合某個(gè)句法規(guī)則的字符串。
一定有人還記得在dos和Unix下面的這些命令:
$ls-limg1?.jpg
C:>dir*.exe
這里的星號(hào)通配符和問(wèn)號(hào)通配符就是Perl正則表達(dá)式符號(hào),確切地說(shuō)是Dosshell和Unixshell使用的Perl正則表達(dá)式符號(hào)。Perl的Perl正則表達(dá)式規(guī)則與這兩些shell的都有所不同,但Perl的Perl正則表達(dá)式影響最大,幾乎成了業(yè)界標(biāo)準(zhǔn),以至于近年來(lái)新建的一些計(jì)算機(jī)語(yǔ)言都要申明自己實(shí)現(xiàn)了Pcre(Perl兼容的Perl正則表達(dá)式),要不然都不好意思出來(lái)混江湖(微軟除外)。
Perl正則表達(dá)式的使用很簡(jiǎn)單(其實(shí)實(shí)現(xiàn)起來(lái)很難),跟我來(lái):
1.Perl正則表達(dá)式相關(guān)的操作符
先不說(shuō)Perl正則表達(dá)式本身,下面我們的Perl正則表達(dá)式就用"apple".先定義一個(gè)字符串
my$szProductType="applecider";
現(xiàn)在要檢驗(yàn)它里面有沒(méi)有字符串"apple"。
if($szProductType=~/apple/){
print$szProductType."\n";
}
上面的=~要看做一個(gè)符號(hào),是Perl的Perl正則表達(dá)式匹配操作符。這個(gè)符號(hào)匹配成功返回1,否則返回0。后面的兩個(gè)/之間包括的就是Perl正則表達(dá)式,這是就是apple。Perl正則表達(dá)式也可以不用/符號(hào)而改用其它符號(hào)包括,鑒于海馬一向厭惡這種標(biāo)新立異做無(wú)用功的行為,就不說(shuō)怎么操作了,偏執(zhí)到不喜歡/符號(hào)的人請(qǐng)自己去查Perl手冊(cè)吧。如果要求匹配一個(gè)字符串里面沒(méi)有"apple"怎么辦?當(dāng)然可以這樣(花括號(hào)里該寫(xiě)什么自己寫(xiě)吧,我省略啦)
unless($szProductType=~/apple/){}
還可以這樣
if(!($szProductType=~/apple/)){}
但是,為了表示你很懂Perl,你應(yīng)該這樣,這也是我最喜歡的方式(畫(huà)外音:這和前面那個(gè)被批判的標(biāo)新立異有啥區(qū)別,嗯?),使用不匹配操作符號(hào)!~。
if($szProductType!~/apple/)){}
最后,為了避免被人看穿自己很不懂Perl,看到下面的表達(dá)式的時(shí)候千萬(wàn)不要露怯
if($szProductType!~m/apple/)){}
這個(gè)m是干什么的?答案是,這個(gè)地方有m沒(méi)m一樣的,都是表示匹配(match)。請(qǐng)直接無(wú)視之。對(duì)于匹配操作符也是一樣的情況。#p#
2.Perl正則表達(dá)式語(yǔ)法
所謂Perl正則表達(dá)式,就是一串特別設(shè)計(jì)過(guò)的字符串,可以按照你的意圖用匹配操作尋找你要求的目標(biāo)。我這里不是Perl手冊(cè),也不是教科書(shū),所以我從例子開(kāi)始,具體的完整說(shuō)明還請(qǐng)查手冊(cè)。
2.1轉(zhuǎn)義符號(hào)\
前面說(shuō)過(guò)缺省情況下Perl正則表達(dá)式要用/包起來(lái),那么現(xiàn)在要尋找一個(gè)字符串里面有沒(méi)有/怎么辦?不是有歧義了么那個(gè)表達(dá)式。換你設(shè)計(jì)Perl語(yǔ)言該咋辦?玩過(guò)C語(yǔ)言的人看到這里一定在嘿嘿笑,因?yàn)樵贑里面簡(jiǎn)單,要寫(xiě)/必須寫(xiě)成\/,要寫(xiě)\必須寫(xiě)成\\。說(shuō)Perl在語(yǔ)法上是C的表弟是很不錯(cuò)的,Perl規(guī)定的轉(zhuǎn)義符號(hào)也是\.常用的特殊符號(hào)有回車(chē)\n,跳格\t,斜杠\\和\/,引號(hào)\'和\",方括號(hào)\[和\],圓括號(hào)\(和\),美元號(hào)\$,上尖號(hào)\^,星號(hào)\*,點(diǎn)號(hào)\.,問(wèn)號(hào)\?,加號(hào)\+。我都是隨手寫(xiě)的,建議拿不定主意的話(huà),非52個(gè)字母的符號(hào)都去查查手冊(cè)吧。舉例:查一個(gè)字符串里有沒(méi)有美元號(hào)
my$szValue='$6580.90';
$szValue=~/\$/;
2.2或操作
Perl的Perl正則表達(dá)式缺省是區(qū)別大小寫(xiě)的。什么,前面早該告訴你?真可憐,又一個(gè)從Windows世界來(lái)的小孩,就和我想當(dāng)然以為在美國(guó)商店應(yīng)該在復(fù)活節(jié)大做生意創(chuàng)造GDP一樣,可是人家不開(kāi)門(mén)。為了串即匹配"Apple"又匹配"apple",你可以這樣:
$szProductType=~/[Aa]pple/;
在方括號(hào)里的字母是"或"的關(guān)系,擊中其中一個(gè)就可以了。在一個(gè)Perl正則表達(dá)式中可以用任意多個(gè)方括號(hào),但是不要嵌套。常常能見(jiàn)到的一種表達(dá)式
[0-9]
表示0到9這十個(gè)字母,也可以用\d來(lái)代替。\D則表示非數(shù)字字符。
[a-zA-Z]
表示52個(gè)字母。
順便在這里把反義也講了吧,[^0-9]代表非數(shù)字的其它字符,[^a]代表非a的其它字符。^在這里是反義的意思,但是請(qǐng)注意^還能做頭錨用,后面會(huì)講到。
2.3尾綴
有人搖頭不喜歡上面的解決方案――我要求真正匹配一個(gè)不區(qū)分大小寫(xiě)的"Apple"應(yīng)該怎么辦?請(qǐng)這樣
$szProductType=~/apple/i;
放在第二個(gè)/符號(hào)后面的尾綴i取消了一切大小寫(xiě)檢查。
另外再說(shuō)兩個(gè)有用的尾綴吧,第一個(gè)是g(全局匹配),如果有字符串
my$string="Applejuice,appleCider,applejeans,applepie,appleplate,apPLebag,…";
而用表達(dá)式$string=~/apple/i;只會(huì)遇到第一個(gè)apple就結(jié)束?,F(xiàn)在我們可以用尾綴g配合while循環(huán)
while($string=~/(apple.*?),/ig){
print"$1\n";
}
就可以找出所有帶apple的詞匯。注意尾綴是可以疊加使用的。上面Perl正則表達(dá)式中的圓括號(hào)、點(diǎn)號(hào)和問(wèn)號(hào)和$1,下面馬上會(huì)講到。
另一個(gè)有用的的尾綴是s。s會(huì)強(qiáng)迫點(diǎn)號(hào)(.)匹配換行符號(hào)(\n),這對(duì)于多行匹配是必須的。不要小看這個(gè)技巧,我花了幾個(gè)小時(shí)才找到的哦。
2.4捕獲匹配的字符串
my$szValue='$1999.99';
if($szValue=~/\$([0-9]+)\.([0-9]+)/){
print"$1dollors$2cents\n";
}
上面表達(dá)式里的加號(hào)表示匹配一到多個(gè)前面的符號(hào),在這里符號(hào)是數(shù)字。用圓括號(hào)括住的內(nèi)容,將會(huì)依次(從左到右)出現(xiàn)在$1,$2,$3……里面。另外,順便說(shuō),整個(gè)Perl正則表達(dá)式匹配的結(jié)果是放在$&里面,上面這個(gè)表達(dá)式演算下來(lái)$&的值還是"$1999.99"。
另外,還有\(zhòng)1,\2形式的反向引用,使得表達(dá)式里面可以用捕獲的字符串。舉例:表達(dá)式"(\w)\1{4,}"在匹配"aabbbbabcdefgccccc111121111999999999"時(shí),匹配結(jié)果是:成功;匹配到的內(nèi)容是"ccccc"。再次匹配下一個(gè)時(shí),將得到999999999(要用while和/g來(lái)配合)。
2.5任意符號(hào).,和次數(shù)符號(hào)*以及+
Perl正則表達(dá)式里點(diǎn)號(hào)是通配任意字母的,例如
$string=~/w.*/i;
就匹配$string里從第一個(gè)w字母開(kāi)始一直到字符串結(jié)束。*表示匹配任意字母0到任意多次。*號(hào)也常被換成+號(hào),表示匹配1到任意多次。如果即沒(méi)有*也沒(méi)有+,那么就是匹配1次。如果要自己定義匹配的次數(shù)或者次數(shù)上下限怎么辦?用{}符號(hào):
$string=~/\d{5,15}/;
上面的式子匹配5到15位數(shù)字
$string=~/\d{20}/;
上面式子匹配20位數(shù)字。
附帶說(shuō)兩個(gè)常用的符號(hào),\S和\s。前者是"非空白",后者是"空白",具體來(lái)說(shuō)包括回車(chē)、空格、跳格、響鈴。
2.6貪婪的+和*,止貪劑?
Perl的Perl正則表達(dá)式是貪婪的(確切地說(shuō),次數(shù)符號(hào)+和*是貪婪的),可以幫助你做一些事情。
my$string='$290098';
$string=~/\$(\d+)/;
由于+號(hào)的貪婪性,$1會(huì)得到值"290098",而不是遇到第一個(gè)數(shù)字2就完成匹配。
但有的時(shí)候你會(huì)不希望他貪婪,希望見(jiàn)好就收。還是我前面用過(guò)的一個(gè)例子
my$string="Applejuice,appleCider,applejeans,applepie,appleplate,apPLebag,…";
如果用$string=~/(apple.*),/i;
由于*的貪婪性,它會(huì)一直匹配到最后一個(gè)逗號(hào)才停下來(lái),這不是我們想要的結(jié)果。解決辦法是用止貪符號(hào)?緊跟在*或者+后面。
$string=~/(apple.*?),/i;
問(wèn)號(hào)會(huì)約束*遇到第一個(gè)逗號(hào)就停下來(lái)。
2.6頭錨^和尾錨$
有時(shí)候你希望從一個(gè)字符串的開(kāi)始或者結(jié)尾匹配
my$string='Aquickbrownfoxjumpsoveralazysnake';
$string=~/^A/;#匹配第一個(gè)字母是否為A
$string=~/snake$/;#匹配最后幾個(gè)字母是否為snake
還有一個(gè)\b,匹配的是單詞邊界,意思是空白或者開(kāi)頭或者結(jié)尾。#p#
3.其它相關(guān)函數(shù)及注意事項(xiàng)
3.1替換功能和quotemeta
有時(shí)候你不僅希望找到你想要那些字符串,還想替換掉它們。還記得前面說(shuō)的匹配符后面的m符號(hào)么?現(xiàn)在是使用另一個(gè),s符號(hào)(替換,subplace)的時(shí)候了。
$string=~s/apple/apple/i;
上面表達(dá)式將$string里所有不用形式的apple統(tǒng)一成全小寫(xiě)的apple.這里面可以用變量:
$string=~s/$string1/$string2/i;
$string里所有匹配$string1的地方都會(huì)被替換成$string2。但是,要注意,除非你能確保$string1里面不含任何特殊符號(hào)(+-*^$.()[]等)或者你需要的就是那些符號(hào),最好在調(diào)用上面式子之前處理一下$string1
$string1=quotemeta($string1);
quotemeta()的作用是給字符串里的特殊符號(hào)加上合適的轉(zhuǎn)義符號(hào)。注意,不需要給$string2做這個(gè)處理。
3.2不要在while里改變字符串
還記得2.3里面的while循環(huán)么?警告:不要在while循環(huán)里改變$string的值,否則可能會(huì)陷入無(wú)限循環(huán)。如果你真得這樣做,把$string復(fù)制一次,一個(gè)鏡像用來(lái)循環(huán),一個(gè)用來(lái)做替換。
3.3study及提高性能
有很多人想了很多種辦法來(lái)提高PerlPerl正則表達(dá)式的性能,我一概記不住。如果你要處理的字符串很龐大。。。記得在對(duì)它使用Perl正則表達(dá)式之前用官方方法對(duì)它study一下:
study($string);
據(jù)說(shuō)這樣可以提高一點(diǎn)性能。其實(shí)如果要性能,還是建議用Java,Java也有Perl正則表達(dá)式;或者對(duì)性能有更高要求的話(huà),建議用C/C++。標(biāo)準(zhǔn)的C和C++都不支持Perl正則表達(dá)式,但有一些函數(shù)庫(kù)可以輔助C/C++程序員完成這一功能,其中最著名的當(dāng)數(shù)PhilipHazel的Perl-CompatibleRegularExpression庫(kù),許多Linux發(fā)行版本都帶有這個(gè)函數(shù)庫(kù)。使用方法看這里
http://www.chinaunix.net/jh/23/303346.html
在Windows上面,VC.NET(VC7)框架里是有Perl正則表達(dá)式了。警告:微軟的老大們并沒(méi)有實(shí)現(xiàn)Perl兼容。例如,在Perl中,{,1}是{0,1}的簡(jiǎn)寫(xiě),但.NET并不支持。具體看這里
http://msdn2.microsoft.com/en-us/library/xbyh1eyc.aspx
網(wǎng)站題目:學(xué)習(xí)筆記全面認(rèn)識(shí)Perl正則表達(dá)式
鏈接URL:http://www.5511xx.com/article/coecsch.html


咨詢(xún)
建站咨詢(xún)
