Java正則表達(dá)式初學(xué)者指南
本文為原創(chuàng),如需轉(zhuǎn)載,請(qǐng)注明作者和出處,謝謝!
本文將介紹如何在Java中使用正則表達(dá)式來(lái)處理文本數(shù)據(jù)。正則表達(dá)式就是一個(gè)字符串,但和普通的字符串不同的是,正則表達(dá)式是對(duì)一組相似字符串的抽象,如下面的幾個(gè)字符串:
a98b c0912d c10b a12345678d ab
我們仔細(xì)分析上面五個(gè)字符串,可以看出它們有一個(gè)共同特征,就是第一個(gè)字符必須是'a'或'c',最后一個(gè)字符必須是'b'或'd',而中間的字符是任意多個(gè)數(shù)字組成(包括0個(gè)數(shù)字)。因此,我們可以將這五個(gè)字符串的共同特點(diǎn)抽象出來(lái),這就產(chǎn)生了一個(gè)正則表達(dá)式:[ac]\\d*[bd]。而根據(jù)這個(gè)正則表達(dá)式,我們可以寫(xiě)出無(wú)窮多個(gè)滿足條件的字符串。
在Java中使用正則表達(dá)式的方法非常多,最簡(jiǎn)單的就是和字符串一起使用。在String中有四個(gè)方法可以使用正則表達(dá)式,它們是matches、split、replaceAll和replaceFirst。
一、matches方法
matches方法可以判斷當(dāng)前的字符串是否匹配給定的正則表達(dá)式。如果匹配,返回true,否則,返回false。matches方法的定義如下:
public boolean matches(String regex)
如上面給出的正則表達(dá)式我們可以用如下程序驗(yàn)證。
輸出結(jié)果:
true
true
true
true
true
下面簡(jiǎn)單解釋一下這個(gè)正則表達(dá)式的含義。如果我們學(xué)過(guò)編譯原理的詞法分析,就會(huì)很容易理解上面的正則表達(dá)式(因?yàn)檎齽t表達(dá)式的表示方法和詞法分析中的表達(dá)式類似)。如在 [...]中的相當(dāng)于或"|",如[abcd]相當(dāng)于a|b|c|d,也就是a或b或c或d。如上面的正則表達(dá)式的開(kāi)頭部分是[ac],就代表著字符串的開(kāi)頭只能是a或c。[bd]表達(dá)字符串結(jié)尾只能是b或d。而中間的\d表達(dá)0-9的數(shù)字,由于\在正則表達(dá)式中有特殊含義,所以用\\來(lái)表示\。而*表示有0或無(wú)窮多個(gè)(這在詞法分析中叫*閉包),由于*跟在\d后面,因此表達(dá)有0或無(wú)窮多個(gè)數(shù)字。
二、split方法
split方法使用正則表達(dá)式來(lái)分割字符串,并以String數(shù)組的形式返回分割結(jié)果。split有兩種重載形式,它們定義如下:
如下面的代碼將使用split的第一種重載形式來(lái)分割HTTP請(qǐng)求頭的第一行,代碼如下:
輸出結(jié)果:
GET
/index.html
HTTP/1.1
在使用split的第一種重載形式時(shí)應(yīng)注意,如果分割后的字符串最后有空串,將被忽略。如使用正則表達(dá)式\d來(lái)分割字符串a(chǎn)0b1c3456時(shí),得到的數(shù)組的長(zhǎng)度為3,而不是7。
在split的第二種重載形式中有一個(gè)limit參數(shù),要分三種情況討論:
1. 大于0: 如limit的值為n,那么將對(duì)正則表達(dá)式使用n-1次,下面的代碼:
輸出結(jié)果:
a
b
c3456
從輸出結(jié)果可以看出,程序只對(duì)" a0b1c3456"使用了兩次正則表達(dá)式,也就是在少掃描完字符'1'后,不管后面有沒(méi)有滿足條件的字符串,都將后面的字符串作為一個(gè)整體來(lái)作為返回?cái)?shù)組的最后一個(gè)值。
2. 小于0: 不忽略結(jié)尾的空串。也就是上面的例子返回?cái)?shù)組的長(zhǎng)度應(yīng)該是7,而不是3。
3. 等于0:這是默認(rèn)值,相當(dāng)于split的第一種重載形式。
三、replaceAll 和 replaceFirst方法
為兩個(gè)方法的定義如下:
public String replaceAll(String regex, String replacement)
public String replaceFirst(String regex, String replacement)
這兩個(gè)方法用replacement替換當(dāng)前字符串中和regex匹配的字符串。使用方法很簡(jiǎn)單,這里不再詳述,感興趣的讀者可以參考相關(guān)的文檔。
對(duì)于Java中正則表達(dá)式的詳細(xì)內(nèi)容,請(qǐng)參考JDK文檔。
新浪微博:http://t.sina.com.cn/androidguy 昵稱:李寧_Lining
本文將介紹如何在Java中使用正則表達(dá)式來(lái)處理文本數(shù)據(jù)。正則表達(dá)式就是一個(gè)字符串,但和普通的字符串不同的是,正則表達(dá)式是對(duì)一組相似字符串的抽象,如下面的幾個(gè)字符串:
a98b c0912d c10b a12345678d ab
我們仔細(xì)分析上面五個(gè)字符串,可以看出它們有一個(gè)共同特征,就是第一個(gè)字符必須是'a'或'c',最后一個(gè)字符必須是'b'或'd',而中間的字符是任意多個(gè)數(shù)字組成(包括0個(gè)數(shù)字)。因此,我們可以將這五個(gè)字符串的共同特點(diǎn)抽象出來(lái),這就產(chǎn)生了一個(gè)正則表達(dá)式:[ac]\\d*[bd]。而根據(jù)這個(gè)正則表達(dá)式,我們可以寫(xiě)出無(wú)窮多個(gè)滿足條件的字符串。
在Java中使用正則表達(dá)式的方法非常多,最簡(jiǎn)單的就是和字符串一起使用。在String中有四個(gè)方法可以使用正則表達(dá)式,它們是matches、split、replaceAll和replaceFirst。
一、matches方法
matches方法可以判斷當(dāng)前的字符串是否匹配給定的正則表達(dá)式。如果匹配,返回true,否則,返回false。matches方法的定義如下:
public boolean matches(String regex)
如上面給出的正則表達(dá)式我們可以用如下程序驗(yàn)證。
String[] ss = new String[]{"a98b", "c0912d", "c10b", "a12345678d", "ab"};
for(String s: ss)
System.out.println(s.matches("[ac]\\d*[bd]"));
for(String s: ss)
System.out.println(s.matches("[ac]\\d*[bd]"));
輸出結(jié)果:
true
true
true
true
true
下面簡(jiǎn)單解釋一下這個(gè)正則表達(dá)式的含義。如果我們學(xué)過(guò)編譯原理的詞法分析,就會(huì)很容易理解上面的正則表達(dá)式(因?yàn)檎齽t表達(dá)式的表示方法和詞法分析中的表達(dá)式類似)。如在 [...]中的相當(dāng)于或"|",如[abcd]相當(dāng)于a|b|c|d,也就是a或b或c或d。如上面的正則表達(dá)式的開(kāi)頭部分是[ac],就代表著字符串的開(kāi)頭只能是a或c。[bd]表達(dá)字符串結(jié)尾只能是b或d。而中間的\d表達(dá)0-9的數(shù)字,由于\在正則表達(dá)式中有特殊含義,所以用\\來(lái)表示\。而*表示有0或無(wú)窮多個(gè)(這在詞法分析中叫*閉包),由于*跟在\d后面,因此表達(dá)有0或無(wú)窮多個(gè)數(shù)字。
二、split方法
split方法使用正則表達(dá)式來(lái)分割字符串,并以String數(shù)組的形式返回分割結(jié)果。split有兩種重載形式,它們定義如下:
public String[] split(String regex)
public String[] split(String regex, int limit)
public String[] split(String regex, int limit)
如下面的代碼將使用split的第一種重載形式來(lái)分割HTTP請(qǐng)求頭的第一行,代碼如下:
String s = "GET /index.html HTTP/1.1";
String ss[] = s.split(" +");
for(String str: ss)
System.out.println(str);
String ss[] = s.split(" +");
for(String str: ss)
System.out.println(str);
輸出結(jié)果:
GET
/index.html
HTTP/1.1
在使用split的第一種重載形式時(shí)應(yīng)注意,如果分割后的字符串最后有空串,將被忽略。如使用正則表達(dá)式\d來(lái)分割字符串a(chǎn)0b1c3456時(shí),得到的數(shù)組的長(zhǎng)度為3,而不是7。
在split的第二種重載形式中有一個(gè)limit參數(shù),要分三種情況討論:
1. 大于0: 如limit的值為n,那么將對(duì)正則表達(dá)式使用n-1次,下面的代碼:
String s = "a0b1c3456";
String ss[] = s.split("\\d", 3);
for(String str: ss)
System.out.println(str);
String ss[] = s.split("\\d", 3);
for(String str: ss)
System.out.println(str);
輸出結(jié)果:
a
b
c3456
從輸出結(jié)果可以看出,程序只對(duì)" a0b1c3456"使用了兩次正則表達(dá)式,也就是在少掃描完字符'1'后,不管后面有沒(méi)有滿足條件的字符串,都將后面的字符串作為一個(gè)整體來(lái)作為返回?cái)?shù)組的最后一個(gè)值。
2. 小于0: 不忽略結(jié)尾的空串。也就是上面的例子返回?cái)?shù)組的長(zhǎng)度應(yīng)該是7,而不是3。
3. 等于0:這是默認(rèn)值,相當(dāng)于split的第一種重載形式。
三、replaceAll 和 replaceFirst方法
為兩個(gè)方法的定義如下:
public String replaceAll(String regex, String replacement)
public String replaceFirst(String regex, String replacement)
這兩個(gè)方法用replacement替換當(dāng)前字符串中和regex匹配的字符串。使用方法很簡(jiǎn)單,這里不再詳述,感興趣的讀者可以參考相關(guān)的文檔。
對(duì)于Java中正則表達(dá)式的詳細(xì)內(nèi)容,請(qǐng)參考JDK文檔。
《Android開(kāi)發(fā)完全講義(第2版)》(本書(shū)版權(quán)已輸出到臺(tái)灣)
http://product.dangdang.com/product.aspx?product_id=22741502
《Android高薪之路:Android程序員面試寶典 》http://book.360buy.com/10970314.html
新浪微博:http://t.sina.com.cn/androidguy 昵稱:李寧_Lining
posted on 2008-05-10 09:14 銀河使者 閱讀(14268) 評(píng)論(8) 編輯 收藏 所屬分類: java 、 原創(chuàng)