一、正則表達(dá)式基礎(chǔ)知識(shí):(此文講的是符合perl的正則表達(dá)式匹配方法,與jdk1.4上的不一樣,但講的很清晰,可作為基礎(chǔ)知識(shí)講解看)
如果你曾經(jīng)用過(guò)Perl或任何其他內(nèi)建正則表達(dá)式支持的語(yǔ)言,你一定知道用正則表達(dá)式處理文本和匹配模式是多么簡(jiǎn)單。如果你不熟悉這個(gè)術(shù)語(yǔ),那么“正則表達(dá)式”(Regular Expression)就是一個(gè)字符構(gòu)成的串,它定義了一個(gè)用來(lái)搜索匹配字符串的模式。 |
許多語(yǔ)言,包括Perl、PHP、Python、JavaScript和JScript,都支持用正則表達(dá)式處理文本,一些文本編輯器用正則表達(dá)式實(shí)現(xiàn)高級(jí)“搜索-替換”功能。那么Java又怎樣呢?本文寫(xiě)作時(shí),一個(gè)包含了用正則表達(dá)式進(jìn)行文本處理的Java規(guī)范需求(Specification Request)已經(jīng)得到認(rèn)可,你可以期待在JDK的下一版本中看到它。 |
然而,如果現(xiàn)在就需要使用正則表達(dá)式,又該怎么辦呢?你可以從Apache.org下載源代碼開(kāi)放的Jakarta-ORO庫(kù)。本文接下來(lái)的內(nèi)容先簡(jiǎn)要地介紹正則表達(dá)式的入門(mén)知識(shí),然后以Jakarta-ORO API為例介紹如何使用正則表達(dá)式。 |
一、正則表達(dá)式基礎(chǔ)知識(shí) |
我們先從簡(jiǎn)單的開(kāi)始。假設(shè)你要搜索一個(gè)包含字符“cat”的字符串,搜索用的正則表達(dá)式就是“cat”。如果搜索對(duì)大小寫(xiě)不敏感,單詞“catalog”、“Catherine”、“sophisticated”都可以匹配。也就是說(shuō): |
![]() |
1.1 句點(diǎn)符號(hào) |
假設(shè)你在玩英文拼字游戲,想要找出三個(gè)字母的單詞,而且這些單詞必須以“t”字母開(kāi)頭,以“n”字母結(jié)束。另外,假設(shè)有一本英文字典,你可以用正則表達(dá)式搜索它的全部?jī)?nèi)容。要構(gòu)造出這個(gè)正則表達(dá)式,你可以使用一個(gè)通配符——句點(diǎn)符號(hào)“.”。這樣,完整的表達(dá)式就是“t.n”,它匹配“tan”、“ten”、“tin”和“ton”,還匹配“t#n”、“tpn”甚至“t n”,還有其他許多無(wú)意義的組合。這是因?yàn)榫潼c(diǎn)符號(hào)匹配所有字符,包括空格、Tab字符甚至換行符: |
![]() |
1.2 方括號(hào)符號(hào) |
為了解決句點(diǎn)符號(hào)匹配范圍過(guò)于廣泛這一問(wèn)題,你可以在方括號(hào)(“[]”)里面指定看來(lái)有意義的字符。此時(shí),只有方括號(hào)里面指定的字符才參與匹配。也就是說(shuō),正則表達(dá)式“t[aeio]n”只匹配“tan”、“Ten”、“tin”和“ton”。但“Toon”不匹配,因?yàn)樵诜嚼ㄌ?hào)之內(nèi)你只能匹配單個(gè)字符: |
![]() |
1.3 “或”符號(hào) |
如果除了上面匹配的所有單詞之外,你還想要匹配“toon”,那么,你可以使用“|”操作符。“|”操作符的基本意義就是“或”運(yùn)算。要匹配“toon”,使用“t(a|e|i|o|oo)n”正則表達(dá)式。這里不能使用方擴(kuò)號(hào),因?yàn)榉嚼ㄌ?hào)只允許匹配單個(gè)字符;這里必須使用圓括號(hào)“()”。圓括號(hào)還可以用來(lái)分組,具體請(qǐng)參見(jiàn)后面介紹。 |
![]() |
1.4 表示匹配次數(shù)的符號(hào) |
表一顯示了表示匹配次數(shù)的符號(hào),這些符號(hào)用來(lái)確定緊靠該符號(hào)左邊的符號(hào)出現(xiàn)的次數(shù): |
|
假設(shè)我們要在文本文件中搜索美國(guó)的社會(huì)安全號(hào)碼。這個(gè)號(hào)碼的格式是999-99-9999。用來(lái)匹配它的正則表達(dá)式如圖一所示。在正則表達(dá)式中,連字符(“-”)有著特殊的意義,它表示一個(gè)范圍,比如從0到9。因此,匹配社會(huì)安全號(hào)碼中的連字符號(hào)時(shí),它的前面要加上一個(gè)轉(zhuǎn)義字符“\”。 |
|
圖一:匹配所有123-12-1234形式的社會(huì)安全號(hào)碼 |
假設(shè)進(jìn)行搜索的時(shí)候,你希望連字符號(hào)可以出現(xiàn),也可以不出現(xiàn)——即,999-99-9999和999999999都屬于正確的格式。這時(shí),你可以在連字符號(hào)后面加上“?”數(shù)量限定符號(hào),如圖二所示: |
|
圖二:匹配所有123-12-1234和123121234形式的社會(huì)安全號(hào)碼 |
下面我們?cè)賮?lái)看另外一個(gè)例子。美國(guó)汽車(chē)牌照的一種格式是四個(gè)數(shù)字加上二個(gè)字母。它的正則表達(dá)式前面是數(shù)字部分“[0-9]{4}”,再加上字母部分“[A-Z]{2}”。圖三顯示了完整的正則表達(dá)式。 |
|
圖三:匹配典型的美國(guó)汽車(chē)牌照號(hào)碼,如8836KV |
1.5 “否”符號(hào) |
“^”符號(hào)稱(chēng)為“否”符號(hào)。如果用在方括號(hào)內(nèi),“^”表示不想要匹配的字符。例如,圖四的正則表達(dá)式匹配所有單詞,但以“X”字母開(kāi)頭的單詞除外。 |
|
圖四:匹配所有單詞,但“X”開(kāi)頭的除外 |
1.6 圓括號(hào)和空白符號(hào) |
假設(shè)要從格式為“June 26, 1951”的生日日期中提取出月份部分,用來(lái)匹配該日期的正則表達(dá)式可以如圖五所示: |
|
圖五:匹配所有Moth DD,YYYY格式的日期 |
新出現(xiàn)的“\s”符號(hào)是空白符號(hào),匹配所有的空白字符,包括Tab字符。如果字符串正確匹配,接下來(lái)如何提取出月份部分呢?只需在月份周?chē)由弦粋€(gè)圓括號(hào)創(chuàng)建一個(gè)組,然后用ORO API(本文后面詳細(xì)討論)提取出它的值。修改后的正則表達(dá)式如圖六所示: |
|
圖六:匹配所有Month DD,YYYY格式的日期,定義月份值為第一個(gè)組 |
1.7 其它符號(hào) |
為簡(jiǎn)便起見(jiàn),你可以使用一些為常見(jiàn)正則表達(dá)式創(chuàng)建的快捷符號(hào)。如表二所示: |
表二:常用符號(hào) |
|
例如,在前面社會(huì)安全號(hào)碼的例子中,所有出現(xiàn)“[0-9]”的地方我們都可以使用“\d”。修改后的正則表達(dá)式如圖七所示: |
|
圖七:匹配所有123-12-1234格式的社會(huì)安全號(hào)碼 |
二、正則表達(dá)式在java中應(yīng)用 (java編程思想第三版P565頁(yè)有講解)
簡(jiǎn)介:
java.util.regex是一個(gè)用正則表達(dá)式所訂制的模式來(lái)對(duì)字符串進(jìn)行匹配工作的類(lèi)庫(kù)包。
它包括兩個(gè)類(lèi): Pattern和 Matcher
Pattern | 一個(gè)Pattern是一個(gè)正則表達(dá)式經(jīng)編譯后的表現(xiàn)模式。 |
Matcher | 一個(gè)Matcher對(duì)象是一個(gè)狀態(tài)機(jī)器,它依據(jù)Pattern對(duì)象做為匹配模式對(duì)字符串展開(kāi)匹配檢查。 |
首先一個(gè)Pattern實(shí)例訂制了一個(gè)所用語(yǔ)法與PERL的類(lèi)似的正則表達(dá)式經(jīng)編譯后的模式,然后一個(gè)Matcher實(shí)例在這個(gè)給定的Pattern實(shí)例的模式控制下進(jìn)行字符串的匹配工作。
以下我們就分別來(lái)看看這兩個(gè)類(lèi):
Pattern的方法如下:
static Pattern | compile(String regex) 將給定的正則表達(dá)式編譯并賦予給Pattern類(lèi) |
static Pattern | compile(String regex, int flags) 同上,但增加flag參數(shù)的指定,可選的flag參數(shù)包括:CASE INSENSITIVE,MULTILINE,DOTALL,UNICODE CASE, CANON EQ |
int | flags() 返回當(dāng)前Pattern的匹配flag參數(shù). |
Matcher | matcher(CharSequence input) 生成一個(gè)給定命名的Matcher對(duì)象 |
static boolean | matches(String regex, CharSequence input) 編譯給定的正則表達(dá)式并且對(duì)輸入的字串以該正則表達(dá)式為模開(kāi)展匹配,該方法適合于該正則表達(dá)式只會(huì)使用一次的情況,也就是只進(jìn)行一次匹配工作,因?yàn)檫@種情況下并不需要生成一個(gè)Matcher實(shí)例。 |
String | pattern() 返回該P(yáng)atter對(duì)象所編譯的正則表達(dá)式。 |
String[] | split(CharSequence input) 將目標(biāo)字符串按照Pattern里所包含的正則表達(dá)式為模進(jìn)行分割。 |
String[] | split(CharSequence input, int limit) 作用同上,增加參數(shù)limit目的在于要指定分割的段數(shù),如將limi設(shè)為2,那么目標(biāo)字符串將根據(jù)正則表達(dá)式分為割為兩段。 |
一個(gè)正則表達(dá)式,也就是一串有特定意義的字符,必須首先要編譯成為一個(gè)Pattern類(lèi)的實(shí)例,這個(gè)Pattern對(duì)象將會(huì)使用 matcher()方法來(lái)生成一個(gè)Matcher實(shí)例,接著便可以使用該 Matcher實(shí)例以編譯的正則表達(dá)式為基礎(chǔ)對(duì)目標(biāo)字符串進(jìn)行匹配工作,多個(gè)Matcher是可以共用一個(gè)Pattern對(duì)象的。
現(xiàn)在我們先來(lái)看一個(gè)簡(jiǎn)單的例子,再通過(guò)分析它來(lái)了解怎樣生成一個(gè)Pattern對(duì)象并且編譯一個(gè)正則表達(dá)式,最后根據(jù)這個(gè)正則表達(dá)式將目標(biāo)字符串進(jìn)行分割:
|
輸出結(jié)果為:
Kevin has seen《LEON》seveal times,because it is a good film. 凱文已經(jīng)看過(guò)《這個(gè)殺手不太冷》幾次了,因?yàn)樗且徊亢秒娪啊? 名詞:凱文。
很明顯,該程序?qū)⒆址?/"進(jìn)行了分段,我們以下再使用 split(CharSequence input, int limit)方法來(lái)指定分段的段數(shù),程序改動(dòng)為: tring[] result = p.split("Kevin has seen《LEON》seveal times,because it is a good film./ 凱文已經(jīng)看過(guò)《這個(gè)殺手不太冷》幾次了,因?yàn)樗且徊亢秒娪啊?名詞:凱文。",2);
這里面的參數(shù)"2"表明將目標(biāo)語(yǔ)句分為兩段。
輸出結(jié)果則為:
Kevin has seen《LEON》seveal times,because it is a good film. 凱文已經(jīng)看過(guò)《這個(gè)殺手不太冷》幾次了,因?yàn)樗且徊亢秒娪啊?名詞:凱文。
由上面的例子,我們可以比較出java.util.regex包在構(gòu)造Pattern對(duì)象以及編譯指定的正則表達(dá)式的實(shí)現(xiàn)手法與我們?cè)谏弦黄兴榻B的Jakarta-ORO 包在完成同樣工作時(shí)的差別,Jakarta-ORO 包要先構(gòu)造一個(gè)PatternCompiler類(lèi)對(duì)象接著生成一個(gè)Pattern對(duì)象,再將正則表達(dá)式用該P(yáng)atternCompiler類(lèi)的compile()方法來(lái)將所需的正則表達(dá)式編譯賦予Pattern類(lèi):
PatternCompiler orocom=new Perl5Compiler();
Pattern pattern=orocom.compile("REGULAR EXPRESSIONS");
PatternMatcher matcher=new Perl5Matcher();
但是在java.util.regex包里,我們僅需生成一個(gè)Pattern類(lèi),直接使用它的compile()方法就可以達(dá)到同樣的效果: Pattern p = Pattern.compile("[/]+");
因此似乎java.util.regex的構(gòu)造法比Jakarta-ORO更為簡(jiǎn)潔并容易理解。
![]() ![]() |
![]()
|
Matcher方法如下:
Matcher | appendReplacement(StringBuffer sb, String replacement) 將當(dāng)前匹配子串替換為指定字符串,并且將替換后的子串以及其之前到上次匹配子串之后的字符串段添加到一個(gè)StringBuffer對(duì)象里。 |
StringBuffer | appendTail(StringBuffer sb) 將最后一次匹配工作后剩余的字符串添加到一個(gè)StringBuffer對(duì)象里。 |
int | end() 返回當(dāng)前匹配的子串的最后一個(gè)字符在原目標(biāo)字符串中的索引位置 。 |
int | end(int group) 返回與匹配模式里指定的組相匹配的子串最后一個(gè)字符的位置。 |
boolean | find() 嘗試在目標(biāo)字符串里查找下一個(gè)匹配子串。 |
boolean | find(int start) 重設(shè)Matcher對(duì)象,并且嘗試在目標(biāo)字符串里從指定的位置開(kāi)始查找下一個(gè)匹配的子串。 |
String | group() 返回當(dāng)前查找而獲得的與組匹配的所有子串內(nèi)容 |
String | group(int group) 返回當(dāng)前查找而獲得的與指定的組匹配的子串內(nèi)容 |
int | groupCount() 返回當(dāng)前查找所獲得的匹配組的數(shù)量。 |
boolean | lookingAt() 檢測(cè)目標(biāo)字符串是否以匹配的子串起始。 |
boolean | matches() 嘗試對(duì)整個(gè)目標(biāo)字符展開(kāi)匹配檢測(cè),也就是只有整個(gè)目標(biāo)字符串完全匹配時(shí)才返回真值。 |
Pattern | pattern() 返回該Matcher對(duì)象的現(xiàn)有匹配模式,也就是對(duì)應(yīng)的Pattern 對(duì)象。 |
String | replaceAll(String replacement) 將目標(biāo)字符串里與既有模式相匹配的子串全部替換為指定的字符串。 |
String | replaceFirst(String replacement) 將目標(biāo)字符串里第一個(gè)與既有模式相匹配的子串替換為指定的字符串。 |
Matcher | reset() 重設(shè)該Matcher對(duì)象。 |
Matcher | reset(CharSequence input) 重設(shè)該Matcher對(duì)象并且指定一個(gè)新的目標(biāo)字符串。 |
int | start() 返回當(dāng)前查找所獲子串的開(kāi)始字符在原目標(biāo)字符串中的位置。 |
int | start(int group) 返回當(dāng)前查找所獲得的和指定組匹配的子串的第一個(gè)字符在原目標(biāo)字符串中的位置。 |
(光看方法的解釋是不是很不好理解?不要急,待會(huì)結(jié)合例子就比較容易明白了)
一個(gè)Matcher實(shí)例是被用來(lái)對(duì)目標(biāo)字符串進(jìn)行基于既有模式(也就是一個(gè)給定的Pattern所編譯的正則表達(dá)式)進(jìn)行匹配查找的,所有往Matcher的輸入都是通過(guò)CharSequence接口提供的,這樣做的目的在于可以支持對(duì)從多元化的數(shù)據(jù)源所提供的數(shù)據(jù)進(jìn)行匹配工作。
我們分別來(lái)看看各方法的使用:
★matches()/lookingAt ()/find():
一個(gè)Matcher對(duì)象是由一個(gè)Pattern對(duì)象調(diào)用其matcher()方法而生成的,一旦該Matcher對(duì)象生成,它就可以進(jìn)行三種不同的匹配查找操作:
- matches()方法嘗試對(duì)整個(gè)目標(biāo)字符展開(kāi)匹配檢測(cè),也就是只有整個(gè)目標(biāo)字符串完全匹配時(shí)才返回真值。
- lookingAt ()方法將檢測(cè)目標(biāo)字符串是否以匹配的子串起始。
- find()方法嘗試在目標(biāo)字符串里查找下一個(gè)匹配子串。
以上三個(gè)方法都將返回一個(gè)布爾值來(lái)表明成功與否。
★replaceAll ()/appendReplacement()/appendTail():
Matcher類(lèi)同時(shí)提供了四個(gè)將匹配子串替換成指定字符串的方法:
- replaceAll()
- replaceFirst()
- appendReplacement()
- appendTail()
replaceAll()與replaceFirst()的用法都比較簡(jiǎn)單,請(qǐng)看上面方法的解釋。我們主要重點(diǎn)了解一下appendReplacement()和appendTail()方法。
appendReplacement(StringBuffer sb, String replacement) 將當(dāng)前匹配子串替換為指定字符串,并且將替換后的子串以及其之前到上次匹配子串之后的字符串段添加到一個(gè)StringBuffer對(duì)象里,而appendTail(StringBuffer sb) 方法則將最后一次匹配工作后剩余的字符串添加到一個(gè)StringBuffer對(duì)象里。
例如,有字符串fatcatfatcatfat,假設(shè)既有正則表達(dá)式模式為"cat",第一次匹配后調(diào)用appendReplacement(sb,"dog"),那么這時(shí)StringBuffer sb的內(nèi)容為fatdog,也就是fatcat中的cat被替換為dog并且與匹配子串前的內(nèi)容加到sb里,而第二次匹配后調(diào)用appendReplacement(sb,"dog"),那么sb的內(nèi)容就變?yōu)閒atdogfatdog,如果最后再調(diào)用一次appendTail(sb),那么sb最終的內(nèi)容將是fatdogfatdogfat。
還是有點(diǎn)模糊?那么我們來(lái)看個(gè)簡(jiǎn)單的程序:
|
最終輸出結(jié)果為:
第1次匹配后sb的內(nèi)容是:Kevin
第2次匹配后sb的內(nèi)容是:Kevin Li and Kevin
第3次匹配后sb的內(nèi)容是:Kevin Li and Kevin Chan are both working in Kevin
第4次匹配后sb的內(nèi)容是:Kevin Li and Kevin Chan are both working in Kevin Chen's Kevin
調(diào)用m.appendTail(sb)后sb的最終內(nèi)容是:Kevin Li and Kevin Chan are both working in Kevin Chen's KevinSoftShop company.
看了上面這個(gè)例程是否對(duì)appendReplacement(),appendTail()兩個(gè)方法的使用更清楚呢,如果還是不太肯定最好自己動(dòng)手寫(xiě)幾行代碼測(cè)試一下。
★group()/group(int group)/groupCount():
該系列方法與我們?cè)谏掀榻B的Jakarta-ORO中的MatchResult .group()方法類(lèi)似(有關(guān)Jakarta-ORO請(qǐng)參考上篇的內(nèi)容),都是要返回與組匹配的子串內(nèi)容,下面代碼將很好解釋其用法:
|
輸出為:
該次查找獲得匹配組的數(shù)量為:2
第1組的子串內(nèi)容為:ca
第2組的子串內(nèi)容為:t
Matcher對(duì)象的其他方法因比較好理解且由于篇幅有限,請(qǐng)讀者自己編程驗(yàn)證。
![]() ![]() |
![]()
|
最后我們來(lái)看一個(gè)檢驗(yàn)Email地址的例程,該程序是用來(lái)檢驗(yàn)一個(gè)輸入的EMAIL地址里所包含的字符是否合法,雖然這不是一個(gè)完整的EMAIL地址檢驗(yàn)程序,它不能檢驗(yàn)所有可能出現(xiàn)的情況,但在必要時(shí)您可以在其基礎(chǔ)上增加所需功能。
|
例如,我們?cè)诿钚休斎耄簀ava Email www.kevin@163.net
那么輸出結(jié)果將會(huì)是:EMAIL地址不能以'www.'起始
如果輸入的EMAIL為@kevin@163.net
則輸出為:EMAIL地址不能以'.'或'@'作為起始字符
當(dāng)輸入為:cgjmail#$%@163.net
那么輸出就是:
輸入的EMAIL地址里包含有冒號(hào)、逗號(hào)等非法字符,請(qǐng)修改 您現(xiàn)在的輸入為: cgjmail#$%@163.net 修改后合法的地址應(yīng)類(lèi)似: cgjmail@163.net