swzhebei

留言簿(5)

隨筆檔案

閱讀排行榜

評論排行榜

常用鏈接

統計

隨筆 - 16
文章 - 0
評論 - 2
引用 - 0

轉載：正則表達式學習---重復匹配

轉載：http://www.aygfsteel.com/zhanghu198901/archive/2012/08/12/385337.html

正則表達式學習---重復匹配

PS：在所有例子中正則表達式匹配結果包含在源文本中的【和】之間，有的例子會使用java來實現，如果是java本身正則表達式的用法，會在相應的地方說明。所有java例子都在JDK1.6.0_13下測試通過。

一、有多少個匹配

前面幾篇講的都是匹配一個字符，但是一個字符或字符集合要匹配多次，應該怎么做呢？比如要匹配一個電子郵件地址，用之前說到的方法，可能有人會寫出像\w@\w\.\w這樣的正則表達式，但這個只能匹配到像a@b.c這樣的地址，明顯是不正確的，接下來就來看看如何匹配電子郵件地址。

首先要知道電子郵件地址的組成：以字母數字或下劃線開頭的一組字符，后面跟@符號，再后面是域名，即用戶名@域名地址。不過這也跟具體的郵箱服務提供商有關，有的在用戶名中也允許.字符。

1、匹配一個或多個字符

要想匹配同一個字符（或字符集合）的多次重復，只要簡單地給這個字符（或字符集合）加上一個+字符作為后綴就可以了。+匹配一個或多個字符（至少一個）。如：a匹配a本身，a+將匹配一個或多個連續出現的a；[0-9]+匹配多個連續的數字。

注意：在給一個字符集合加上+后綴的時候，必須把+放在字符集合的外面，否則就不是重復匹配了。如[0-9+]這樣就表示數字或+號了，雖然語法上正確，但不是我們想要的了。

文本：Hello, mhmyqn@qq.com or mhmyqn@126.com is my email.

正則表達式：\w+@(\w+\.)+\w+

結果：Hello, 【mhmyqn@qq.com】 or 【mhmyqn@126.com】 is my email.

分析：\w+可以匹配一個或多個字符，而子表達式(\w+\.)+可匹配像xxxx.edu.這樣的字符串，而最后不會是.字符結尾，所以后面還會有一個\w+。像mhmyqn@xxxx.edu.cn這樣的郵件地址也會匹配到。

2、匹配零個或多個字符

匹配零個或多個字符使用元符*，它的用法和+完全一樣，只要把它放在一下字符或字符集合的后面，就可以匹配該字符（或字符集合）連續出現零次或多次。如正則表達式ab*c可以匹配ac、abc、abbbbbc等。

3、匹配零個或一個字符

匹配零個或一個字符使用元字符?。像上一篇說到的匹配一個空白行使用正則表達式\r\n\r\n，但在Unix和Linux中不需要\r，就可以使用元字符?，\r?\n\r?\n這樣既可匹配windows中的空白行，也可匹配Unix和Linux中的空白行。下面來看一個匹配http或https協議的URL的例子：

文本：The URL is http://www.mikan.com, to connect securely use https://www.mikan.cominstead.

正則表達式：https?://(\w+\.)+\w+

結果：The URL is 【http://www.mikan.com】, to connect securely use 【https://www.mikan.com】 instead.

分析：這個模式以https?開頭，表示?之前的一個字符可以有，也可以沒有，所以它能匹配http或https，后面部分和前一個例子一樣。

二、匹配的重復次數

正則表達式里的+、*和?解決了很多問題，但是：

1）+和*匹配的字符個數沒有上限。我們無法為它們將匹配的字符個數設定一個最大值。

2）+、*和?至少匹配一個或零個字符。我們無法為它們將匹配的字符個數另行設定一個最小值。

3）如果只使用*和+，我們無法把它們將匹配的字符個數設定為一個精確的數字。

正則表達式里提供了一個用來設定重復次數的語法，重復次數要用{和}字符來給出，把數值寫在它們中間。

1、為重復匹配次數設定一個精確值

如果想為重復匹配次數設定一個精確的值，把那個數字寫在{和}之間即可。如{4}表示它前面的那個字符（或字符集合）必須在原始文本中連續重復出現4次才算是一個匹配，如果只出現了3次，也不算是一個匹配。

如前面幾篇中說到的匹配頁面中顏色的例子，就可以用重復次數來匹配：#[[:xdigit:]]{6}或#[0-9a-fA-F]{6}，POSIX字符在java中是#\\p{XDigit}{6}。

2、為重復匹配次數設定一個區間

{}語法還可以用來為重復匹配次數設定一個區間，也就是為重復匹配次數設定一個最小值和最大值。這種區間必須以{n, m}這樣的形式給出，其中n>=m>=0。如檢查日期格式是否正確（不檢查日期的有效性）的正則表達式（如日期2012-08-12或2012-8-12）：\d{4}-\d{1,2}-\d{1,2}。

3、匹配至少重復多少次

{}語法的最后一種用法是給出一個最小的重復次數（但不必給出最大重復次數），如{3,}表示至少重復3次。注意：{3,}中一定要有逗號，而且逗號后不能有空格。否則會出錯。

來看一個例子，使用正則表達式把所有金額大于$100的金額找出來：

文本：

$25.36

$125.36

$205.0

$2500.44

$44.30

正則表達式：$\d{3,}\.\d{2}

結果：

$25.36

【$125.36】

【$205.0】

【$2500.44】

$44.30

+、*、?可以表示成重復次數：

+等價于{1,}

*等價于{0,}

?等價于{0,1}

三、防止過度匹配

?只能匹配零個或一個字符，{n}和{n,m}也有匹配重復次數的上限，但是像*、+、{n,}都沒有上限值，這樣有時會導致過度匹配的現象。

來看匹配一個html標簽的例子

文本：

Yesterday is history,tomorrow is a mystery, but today is a gift.

正則表達式：<[Bb]>.*</[Bb]>

結果：

Yesterday is 【history,tomorrow is a mystery, but today is a gift】.

分析：<[Bb]>匹配標簽（不區分大小寫），</[Bb]>匹配標簽（不區分大小寫）。但結果卻不是預期的那樣有三個，第一個標簽之后，一直到最后一個之間的東西全部匹配出來了。

為什么會這樣呢？因為*和+都是貪婪型的元字符，它們在匹配時的行為模式是多多益善，它們會盡可能從一段文本的開頭一直匹配到這段文本的末尾，而不是從這段文本的開頭匹配到碰到第一個匹配時為止。

當不需要這種貪婪行為時，可以使用這些元字符的懶惰型版本。懶惰意思是匹配盡可能少的字符，與貪婪型相反。懶惰型元字符只需要給貪婪型元字符加上一個?后綴即可。下面是貪婪型元字符的對應懶惰型版本：

* *?

+ +?

{n,} {n,}?

所以上面的例子中，正則表達式只需要改成<[Bb]>.*?</[Bb]>即可，結果如下：

history

mystery

gift

四、總結

正則表達式的真下威力體現在重復次數匹配方面。這里介紹了+、*、?幾種元字符的用法，如果要精確的確定匹配次數，使用{}。元字符分貪婪型和懶惰型兩種，在需要防止過度匹配的場合下，請使用懶惰型元字符來構造正則表達式

posted on 2012-08-15 17:37 透明的魚閱讀(360) 評論(0) 編輯收藏

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理