zhangheng

posts - 19, comments - 0, trackbacks - 0, articles - 0

微軟的正則表達(dá)式教程（四）：限定符和定位符

Posted on 2007-06-14 14:16 siwei 閱讀(302) 評(píng)論(0) 編輯收藏所屬分類: JAVASCRIPT

限定符

有時(shí)候不知道要匹配多少字符。為了能適應(yīng)這種不確定性，正則表達(dá)式支持限定符的概念。這些限定符可以指定正則表達(dá)式的一個(gè)給定組件必須要出現(xiàn)多少次才能滿足匹配。

下表給出了各種限定符及其含義的說(shuō)明：

字符	描述
*	匹配前面的子表達(dá)式零次或多次。例如，zo* 能匹配 "z" 以及 "zoo"。 * 等價(jià)于{0,}。
+	匹配前面的子表達(dá)式一次或多次。例如，'zo+' 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等價(jià)于 {1,}。
?	匹配前面的子表達(dá)式零次或一次。例如，"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等價(jià)于 {0,1}。
{n}	n 是一個(gè)非負(fù)整數(shù)。匹配確定的 n 次。例如，'o{2}' 不能匹配 "Bob" 中的 'o'，但是能匹配 "food" 中的兩個(gè) o。
{n,}	n 是一個(gè)非負(fù)整數(shù)。至少匹配n 次。例如，'o{2,}' 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的所有 o。'o{1,}' 等價(jià)于 'o+'。'o{0,}' 則等價(jià)于 'o*'。
{n,m}	m 和 n 均為非負(fù)整數(shù)，其中n <= m。最少匹配 n 次且最多匹配 m 次。劉， "o{1,3}" 將匹配 "fooooood" 中的前三個(gè) o。'o{0,1}' 等價(jià)于 'o?'。請(qǐng)注意在逗號(hào)和兩個(gè)數(shù)之間不能有空格。

對(duì)一個(gè)很大的輸入文檔而言，章節(jié)數(shù)很輕易就超過(guò)九章，因此需要有一種方法來(lái)處理兩位數(shù)或者三位數(shù)的章節(jié)號(hào)。限定符就提供了這個(gè)功能。下面的JScript 正則表達(dá)式可以匹配具有任何位數(shù)的章節(jié)標(biāo)題：

/Chapter [1-9][0-9]*/

下面的 VBScript 正則表達(dá)式執(zhí)行同樣的匹配：

"Chapter [1-9][0-9]*"

請(qǐng)注意限定符出現(xiàn)在范圍表達(dá)式之后。因此，它將應(yīng)用于所包含的整個(gè)范圍表達(dá)式，在本例中，只指定了從 0 到 9 的數(shù)字。

這里沒(méi)有使用 '+' 限定符，因?yàn)榈诙换蚝罄m(xù)位置上并不一定需要一個(gè)數(shù)字。同樣也沒(méi)有使用 '?' 字符，因?yàn)檫@將把章節(jié)數(shù)限制為只有兩位數(shù)字。在 'Chapter' 和空格字符之后至少要匹配一個(gè)數(shù)字。

如果已知章節(jié)數(shù)限制只有99 章，則可以使用下面的 JScript 表達(dá)式來(lái)指定至少有一位數(shù)字，但不超過(guò)兩個(gè)數(shù)字。

/Chapter [0-9]{1,2}/

對(duì) VBScript 可以使用下述正則表達(dá)式：

"Chapter [0-9]{1,2}"

上述表達(dá)式的缺點(diǎn)是如果有一個(gè)章節(jié)號(hào)大于 99，它仍只會(huì)匹配前兩位數(shù)字。另一個(gè)缺點(diǎn)是某些人可以創(chuàng)建一個(gè) Chapter 0，而且仍能匹配。一個(gè)更好的用來(lái)匹配兩位數(shù)的 JScript 表達(dá)式如下：

/Chapter [1-9][0-9]?/

或者

/Chapter [1-9][0-9]{0,1}/

對(duì) VBScript 而言，下述表達(dá)式與上面等價(jià)：

"Chapter [1-9][0-9]?"

或者

"Chapter [1-9][0-9]{0,1}"

'*'、 '+'和 '?' 限定符都稱之為貪婪的，也就是說(shuō)，他們盡可能多地匹配文字。有時(shí)這根本就不是所希望發(fā)生的情況。有時(shí)則正好希望最小匹配。

例如，你可能要搜索一個(gè) HTML 文檔來(lái)查找一處包含在 H1 標(biāo)記中的章節(jié)標(biāo)題。在文檔中該文字可能具有如下形式：

<H1>Chapter 1 – Introduction to Regular Expressions</H1>

下面的表達(dá)式匹配從開(kāi)始的小于號(hào) (<) 到 H1 標(biāo)記結(jié)束處的大于號(hào)之間的所有內(nèi)容。

/<.*>/

VBScript 的正則表達(dá)式為：

"<.*>"

如果所要匹配的就是開(kāi)始的 H1 標(biāo)記，則下述非貪婪地表達(dá)式就只匹配 <H1>。

/<.*?>/

或者

"<.*?>"

通過(guò)在 '*'、 '+' 或 '?' 限定符后放置 '?'，該表達(dá)式就從貪婪匹配轉(zhuǎn)為了非貪婪或最小匹配。

定位符

到現(xiàn)在為止，所看到的示例都只考慮查找任何地方出現(xiàn)的章節(jié)標(biāo)題。出現(xiàn)的任何一個(gè)字符串 'Chapter' 后跟一個(gè)空格和一個(gè)數(shù)字可能是一個(gè)真正的章節(jié)標(biāo)題，也可能是對(duì)其他章節(jié)的交叉引用。由于真正的章節(jié)標(biāo)題總是出現(xiàn)在一行的開(kāi)始，因此需要設(shè)計(jì)一個(gè)方法只查找標(biāo)題而不查找交叉引用。

定位符提供了這個(gè)功能。定位符可以將一個(gè)正則表達(dá)式固定在一行的開(kāi)始或結(jié)束。也可以創(chuàng)建只在單詞內(nèi)或只在單詞的開(kāi)始或結(jié)尾處出現(xiàn)的正則表達(dá)式。下表包含了正則表達(dá)式及其含義的列表：

字符描述

^ 匹配輸入字符串的開(kāi)始位置。如果設(shè)置了 RegExp 對(duì)象的 Multiline 屬性，^ 也匹配 '\n' 或 '\r' 之后的位置。

$ 匹配輸入字符串的結(jié)束位置。如果設(shè)置了RegExp 對(duì)象的 Multiline 屬性，$ 也匹配 '\n' 或 '\r' 之前的位置。

\b 匹配一個(gè)單詞邊界，也就是指單詞和空格間的位置。

\B 匹配非單詞邊界。

字符	描述
^	匹配輸入字符串的開(kāi)始位置。如果設(shè)置了 RegExp 對(duì)象的 Multiline 屬性，^ 也匹配 '\n' 或 '\r' 之后的位置。
$	匹配輸入字符串的結(jié)束位置。如果設(shè)置了RegExp 對(duì)象的 Multiline 屬性，$ 也匹配 '\n' 或 '\r' 之前的位置。
\b	匹配一個(gè)單詞邊界，也就是指單詞和空格間的位置。
\B	匹配非單詞邊界。

不能對(duì)定位符使用限定符。因?yàn)樵谝粋€(gè)換行符或者單詞邊界的前面或后面不會(huì)有連續(xù)多個(gè)位置，因此諸如 '^*' 的表達(dá)式是不允許的。

要匹配一行文字開(kāi)始位置的文字，請(qǐng)?jiān)谡齽t表達(dá)式的開(kāi)始處使用 '^' 字符。不要把 '^' 的這個(gè)語(yǔ)法與其在括號(hào)表達(dá)式中的語(yǔ)法弄混。它們的語(yǔ)法根本不同。

要匹配一行文字結(jié)束位置的文字，請(qǐng)?jiān)谡齽t表達(dá)式的結(jié)束處使用 '$' 字符。

要在查找章節(jié)標(biāo)題時(shí)使用定位符，下面的 JScript 正則表達(dá)式將匹配位于一行的開(kāi)始處最多有兩個(gè)數(shù)字的章節(jié)標(biāo)題：

/^Chapter [1-9][0-9]{0,1}/

VBScript 中相同功能的正則表達(dá)式如下：

"^Chapter [1-9][0-9]{0,1}"

一個(gè)真正的章節(jié)標(biāo)題不僅出現(xiàn)在一行的開(kāi)始，而且這一行中也僅有這一個(gè)內(nèi)容，因此，它必然也位于一行的結(jié)束。下面的表達(dá)式確保所指定的匹配只匹配章節(jié)而不會(huì)匹配交叉引用。它是通過(guò)創(chuàng)建一個(gè)只匹配一行文字的開(kāi)始和結(jié)束位置的正則表達(dá)式來(lái)實(shí)現(xiàn)的。

/^Chapter [1-9][0-9]{0,1}$/

對(duì) VBScript 則使用：

"^Chapter [1-9][0-9]{0,1}$"

匹配單詞邊界有少許不同，但卻給正則表達(dá)式增加了一個(gè)非常重要的功能。單詞邊界就是單詞和空格之間的位置。非單詞邊界就是其他任何位置。下面的 JScript 表達(dá)式將匹配單詞 'Chapter' 的前三個(gè)字符，因?yàn)樗鼈兂霈F(xiàn)在單詞邊界后：

/\bCha/

對(duì) VBScript 為：

"\bCha"

這里 '\b' 操作符的位置很關(guān)鍵。如果它位于要匹配的字符串的開(kāi)始，則將查找位于單詞開(kāi)頭處的匹配；如果它位于改字符串的末尾，則查找位于單詞結(jié)束處的匹配。例如，下面的表達(dá)式將匹配單詞 'Chapter' 中的 'ter'，因?yàn)樗霈F(xiàn)在單詞邊界之前：

/ter\b/

以及

"ter\b"

下面的表達(dá)式將匹配 'apt'，因?yàn)樗挥?'Chapter' 中間，但不會(huì)匹配 'aptitude' 中的'apt'：

/\Bapt/

以及

"\Bapt"

這是因?yàn)樵趩卧~ 'Chapter' 中 'apt' 出現(xiàn)在非單詞邊界位置，而在單詞 'aptitude' 中位于單詞邊界位置。非單詞邊界操作符的位置不重要，因?yàn)槠ヅ渑c一個(gè)單詞的開(kāi)頭或結(jié)尾無(wú)關(guān)。

新用戶注冊(cè) 刷新評(píng)論列表


只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問(wèn) 管理
相關(guān)文章: 微軟的正則表達(dá)式教程（五）：選擇/編組和后向引用微軟的正則表達(dá)式教程（四）：限定符和定位符微軟的正則表達(dá)式教程（一）：正則表達(dá)式簡(jiǎn)介微軟的正則表達(dá)式教程（二）：正則表達(dá)式語(yǔ)法和優(yōu)先權(quán)順序微軟的正則表達(dá)式教程（三）：字符匹配正則表達(dá)式30分鐘入門教程正則表達(dá)式語(yǔ)法 js正則表達(dá)式基礎(chǔ)之二正則表達(dá)式入門級(jí)教程之一 17種常用的js正則表達(dá)式

<

2007年6月

>

日

一

二

三

四

五

六

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

7

常用鏈接

留言簿(1)

隨筆分類

隨筆檔案

搜索

閱讀排行榜

評(píng)論排行榜

Copyright siwei.