30分鐘正則表達式入門的歸納版,原網頁:正則表達式30分鐘入門
元字符
\w 匹配字母或數字或下劃線或漢字等。等效于Unicode字符類別 [\p{Ll}\p{Lu}\p{Lt}\p{Lo}\p{Nd}\p{Pc}\p{Lm}]。如果用ECMAScript選項指定了符合 ECMAScript的行為,則\w只等效于[a-zA-Z_0-9]。
\b 單詞的開頭或結尾,如果需要更精確的說法,\b匹配這樣的位置:它的前一個字符和后一個字符不全是\w
. 除換行符以外的所有字符
* 表示數量,任意數量,所以 .* 加起來就表示除換行符以外的任意數量字符,\w*表示任意字符
+ 是和*類似的元字符,不同的是*匹配重復任意次(可能是0次),而+則匹配重復1次或更多次。
\d 單個數字
\s 匹配任意的空白符,包括空格,制表符(Tab),換行符,中文全角空格等。
^ 匹配你要用來查找的字符串的開頭,$匹配結尾。和忽略大小寫的選項類似,有些正則表達式處理工具還有一個處理多行的選項。如果選中了這個選項,^和$的意義就變成了匹配行的開始處和結束處 這個我也不明白(現在明白了,就是如果要指明匹配整串字符的話就可以使用這兩個來指明。)
\ 字符轉義
[] 表示括號內的其中一個或者括號內范圍的其中一個,例如[aeiou],[1-9],[a-z0-9A-Z]
對于上面的表示實際字符的代碼,都可以加上{數量}來指定匹配指定數量的字符,例如\d{7}, \w{5}表示7個數字,5個字符
| 兩個正則表達式的或關系,即匹配其中一個就行,從左到右匹配,成功后將不繼續比較,所以長的串應該放于前面
() 整體,括住一個表達式,然后可以整體操作,例如:(\d{1,3}\.){3}\d{1,3}是一個簡單的IP地址匹配表達式。要理解這個表達式,請按下列順序分析它:\d{1,3}匹配1到3位的數字,(\d{1,3}\.}{3}匹配三位數字加上一個英文句號(這個整體也就是這個分組)重復3次,最后再加上一個一到三位的數字(\d{1,3})。
# 注釋,在()內有效,若啟用忽略模式里的空白符的選項,則()內每一行#號后的都是注釋
簡表
表1.常用的元字符 |
|
代碼 |
說明 |
. |
匹配除換行符以外的任意字符 |
\w |
匹配字母或數字或下劃線或漢字 |
\s |
匹配任意的空白符 |
\d |
匹配數字 |
\b |
匹配單詞的開始或結束 |
^ |
匹配字符串的開始 |
$ |
匹配字符串的結束 |
表2.常用的限定符 |
|
代碼/語法 |
說明 |
* |
重復零次或更多次 |
+ |
重復一次或更多次 |
? |
重復零次或一次 |
{n} |
重復n次 |
{n,} |
重復n次或更多次 |
{n,m} |
重復n到m次 |
一般情況下,重復限定符會匹配盡量多的字符串,即所謂的貪婪匹配,在重復限定符后加上?號變成懶惰匹配,則匹配盡量少的字符串
表3.常用的反義代碼 |
|
代碼/語法 |
說明 |
\W |
匹配任意不是字母,數字,下劃線,漢字的字符 |
\S |
匹配任意不是空白符的字符 |
\D |
匹配任意非數字的字符 |
\B |
匹配不是單詞開頭或結束的位置 |
[^x] |
匹配除了x以外的任意字符 |
[^aeiou] |
匹配除了aeiou這幾個字母以外的任意字符 |
比較難的點,詳細說明一下
后向引用
使用小括號指定一個子表達式后,匹配這個子表達式的文本(也就是此分組捕獲的內容)可以在表達式或其它程序中作進一步的處理。默認情況下,每個分組會自動擁有一個組號,規則是:從左向右,以分組的左括號為標志,第一個出現的分組的組號為1,第二個為2,以此類推。
后向引用用于重復搜索前面某個分組匹配的文本。例如,\1代表分組1匹配的文本。難以理解?請看示例:
\b(\w+)\b\s+\1\b可以用來匹配重復的單詞,像go go, kitty kitty。首先是一個單詞,也就是單詞開始處和結束處之間的多于一個的字母或數字(\b(\w+)\b),然后是1個或幾個空白符(\s+),最后是前面匹配的那個單詞(\1)。
你也可以自己指定子表達式的組名。要指定一個子表達式的組名,請使用這樣的語法:(?<Word>\w+)(或者把尖括號換成'也行:(?'Word'\w+)),這樣就把\w+的組名指定為Word了。要后向引用這個分組捕獲的內容,你可以使用\k<Word>,所以上一個例子也可以寫成這樣:\b(?<Word>\w+)\b\s+\k<Word>\b。
使用小括號的時候,還有很多特定用途的語法。下面列出了最常用的一些:
表4.分組語法 |
|
捕獲 |
|
(exp) |
匹配exp,并捕獲文本到自動命名的組里 |
(?<name>exp) |
匹配exp,并捕獲文本到名稱為name的組里,也可以寫成(?'name'exp) |
(?:exp) |
匹配exp,不捕獲匹配的文本,也不給此分組分配組號 |
位置指定 |
|
(?=exp) |
匹配exp前面的位置 |
(?<=exp) |
匹配exp后面的位置 |
(?!exp) |
匹配后面跟的不是exp的位置 |
(?<!exp) |
匹配前面不是exp的位置 |
注釋 |
|
(?#comment) |
這種類型的組不對正則表達式的處理產生任何影響,用于提供注釋讓人閱讀 |
我們已經討論了前兩種語法。第三個(?:exp)不會改變正則表達式的處理方式,只是這樣的組匹配的內容不會像前兩種那樣被捕獲到某個組里面。
零寬斷言
接下來的四個用于查找在某些內容(但并不包括這些內容)之前或之后的東西,也就是說它們像\b,^,$那樣用于指定一個位置,這個位置應該滿足一定的條件(斷言),因此它們也被稱為零寬斷言。最好還是拿例子來說明吧:
(?=exp)也叫零寬度正預測先行斷言,它斷言自身出現的位置的后面能匹配表達式exp。比如\b\w+(?=ing\b),匹配以ing結尾的單詞的前面部分(除了ing以外的部分),如查找I'm singing while you're dancing.時,它會匹配sing和danc。
(?<=exp)也叫零寬度正回顧后發斷言,它斷言自身出現的位置的前面能匹配表達式exp。比如(?<=\bre)\w+\b會匹配以re開頭的單詞的后半部分(除了re以外的部分),例如在查找reading a book時,它匹配ading。
假如你想要給一個很長的數字中每三位間加一個逗號(當然是從右邊加起了),你可以這樣查找需要在前面和里面添加逗號的部分:((?<=\d)\d{3})*\b,用它對1234567890進行查找時結果是234567890。
下面這個例子同時使用了這兩種斷言:(?<=\s)\d+(?=\s)匹配以空白符間隔的數字(再次強調,不包括這些空白符)。
表6.常用的處理選項 |
|
名稱 |
說明 |
IgnoreCase(忽略大小寫) |
匹配時不區分大小寫。 |
Multiline(多行模式) |
更改^和$的含義,使它們分別在任意一行的行首和行尾匹配,而不僅僅在整個字符串的開頭和結尾匹配。 |
Singleline(單行模式) |
更改.的含義,使它與每一個字符匹配(包括換行符\n)。 |
IgnorePatternWhitespace(忽略空白) |
忽略表達式中的非轉義空白并啟用由#標記的注釋。 |
RightToLeft(從右向左查找) |
匹配從右向左而不是從左向右進行。 |
ExplicitCapture(顯式捕獲) |
僅捕獲已被顯式命名的組。 |
ECMAScript(JavaScript兼容模式) |
使表達式的行為與它在JavaScript里的行為一致。 |
表7.尚未詳細討論的語法 |
|
\a |
報警字符(打印它的效果是電腦嘀一聲) |
\b |
通常是單詞分界位置,但如果在字符類里使用代表退格 |
\t |
制表符,Tab |
\r |
回車 |
\v |
豎向制表符 |
\f |
換頁符 |
\n |
換行符 |
\e |
Escape |
\0nn |
ASCII代碼中八進制代碼為nn的字符 |
\xnn |
ASCII代碼中十六進制代碼為nn的字符 |
\unnnn |
Unicode代碼中十六進制代碼為nnnn的字符 |
\cN |
ASCII控制字符。比如\cC代表Ctrl+C |
\A |
字符串開頭(類似^,但不受處理多行選項的影響) |
\Z |
字符串結尾或行尾(不受處理多行選項的影響) |
\z |
字符串結尾(類似$,但不受處理多行選項的影響) |
\G |
當前搜索的開頭 |
\p{name} |
Unicode中命名為name的字符類,例如\p{IsGreek} |
(?>exp) |
貪婪子表達式 |
(?<x>-<y>exp) |
平衡組 |
(?im-nsx:exp) |
在子表達式exp中改變處理選項 |
(?im-nsx) |
為表達式后面的部分改變處理選項 |
(?(exp)yes|no) |
把exp當作零寬正向先行斷言,如果在這個位置能匹配,使用yes作為此組的表達式;否則使用no |
(?(exp)yes) |
同上,只是使用空表達式作為no |
(?(name)yes|no) |
如果命名為name的組捕獲到了內容,使用yes作為表達式;否則使用no |
(?(name)yes) |
同上,只是使用空表達式作為no |