posts - 73, comments - 55, trackbacks - 0

字符串匹配

1 術(shù)語(yǔ)定義

在字符串匹配問(wèn)題中，我們期待察看串T中是否含有串P。
其中串T被稱為目標(biāo)串，串S被稱為模式串。

2 樸素匹配算法

進(jìn)行字符串匹配，最簡(jiǎn)單的一個(gè)想法是：

public ? class ?SimpleMatch? {

?? public ? int ?StringMatch(String?target,String?patten)? {

?????? int ?tl? = ?target.length();

?????? int ?pl? = ?patten.length();

?????? int ?i? = ? 0 ;

?????? int ?j? = ? 0 ;

?????? while (i? < ?tl? - ?pl? && ?j? < ?pl)? {

?????????? if (patten.charAt(j)? == ?target.charAt(i + j))

??????????????j ++ ;

?????????? else ? {

??????????????j? = ? 0 ;

??????????????i ++ ;

??????????}

??????}

?????? if (j? == ?pl)

?????????? return ?i;

?????? return ? - 1 ;

??}

??

?? public ? static ? void ?main(String[]?args) {

??????String?t? = ? " 123456789 " ;

??????String?p? = ? " 456 " ;

??????SimpleMatch?sm? = ? new ?SimpleMatch();

??????System.out.println(sm.StringMatch(t,?p));

??}

}

可以看見(jiàn)，這個(gè)算法（假定m>>n）的復(fù)雜度是O(mn)，其中m是T的長(zhǎng)度，n是P的長(zhǎng)度。這種算法的缺陷是匹配過(guò)程中帶有回溯——準(zhǔn)確地說(shuō)是T串存在回溯，也就是當(dāng)匹配不成功的時(shí)候，之前進(jìn)行的匹配完全變?yōu)闊o(wú)用功，所有的比較需要重新開始。

3 KMP算法

KMP算法是D.E.Knuth、J.H.Morris和V.R.Pratt提出的無(wú)回溯的字符串匹配算法，算法的核心思想就是設(shè)法在匹配失敗的時(shí)候，盡量利用之前的匹配結(jié)果，消除T串的回溯問(wèn)題。那么如何消除回溯呢？請(qǐng)看下面的例子：

假設(shè)P=abacd，如果T=abax...，當(dāng)從頭開始匹配到字符c時(shí)，若c=x，顯然，匹配過(guò)程繼續(xù)；當(dāng)c≠x時(shí)，按照樸素的匹配算法，T串會(huì)發(fā)生回溯，之后T串會(huì)從第2個(gè)字符b開始重新匹配，而不是從匹配失敗的字符x開始繼續(xù)。但是顯然，對(duì)于上述的匹配過(guò)程，T串不需要從b開始重新匹配，它只需要從x開始和P的b字符繼續(xù)匹配即可。如下：
匹配過(guò)程：
P=abacd
T=abax....
???? ^----比較到此處時(shí)發(fā)生匹配失敗
樸素匹配算法：
P= abacd
T=abax...
?? ^----回溯到b，重新開始和P的匹配
KMP算法：
P=? abacd
T=abax...
???? ^----T串不回溯，從x處繼續(xù)匹配

現(xiàn)在的問(wèn)題是，按照KMP算法，匹配失敗的時(shí)候，P串需要重新調(diào)整位置，但是調(diào)整的依據(jù)是什么？Knuth等人發(fā)現(xiàn)，P調(diào)整位置的依據(jù)和P的構(gòu)造有關(guān)，和T無(wú)關(guān)。具體來(lái)說(shuō)，定義失效函數(shù)：f(j)=k，其中0<=k<=j，且k是使得p₀p₁...p_k-1 = p_j-k+1p_j-k+2...p_j成立的最大整數(shù)。建立失效函數(shù)的算法如下：
public void Build() {
?if(pattern == null)
??throw new Exception("KMP Exception : null pattern");
?array = new int[pattern.Length];
?int i = 0, s = pattern.Length;
?if(s > 1)
??array[0] = 0;
?for(i = 1; i < s; i++) {
??if(pattern[i] == pattern[array[i - 1]])
???array[i] = array[i - 1] + 1;
??else
???array[i] = 0;
?}
}

匹配過(guò)程如下：
public int Match(String target, int start) {
?if(array == null || pattern == null || target == null)
??return -1;
?int target_index = start;
?int pattern_index = 0;
?int token_length = target.Length;
?int pattern_length = pattern.Length;
?while(target_index < token_length && pattern_index < pattern_length) {
??if(target[target_index] == pattern[pattern_index]) {
???target_index++;
???pattern_index++;
??} else {
???if(pattern_index == begin)
????target_index++;
???else
????pattern_index = array[pattern_index - 1];
??}
?}
?if(pattern_index == pattern_length)
??return target_index - pattern_length;
?return -1;
}

4 支持通配符?和*的KMP算法

KMP算法雖然能夠進(jìn)行字符串匹配，但是，在實(shí)踐中字符串匹配往往還要支持通配符，MS系統(tǒng)中最常見(jiàn)的通配符是?和*。其中，?可以代表一個(gè)字符（不能沒(méi)有），*可以代表任意多個(gè)字符（可以為空）。經(jīng)典的KMP算法針對(duì)通配符是無(wú)能為力的，但是經(jīng)過(guò)簡(jiǎn)單的改造，KMP算法也可以識(shí)別通配符。

首先是?，根據(jù)?的功能，?表示任意字符，也就是說(shuō)在匹配過(guò)程中，?永遠(yuǎn)匹配成功。因此對(duì)匹配函數(shù)的修改十分簡(jiǎn)單：
...
?while(target_index < token_length && pattern_index < pattern_length) {
??if(target[target_index] == pattern[pattern_index]|| pattern[pattern_index] == '?') {
???target_index++;
???pattern_index++;
??} else {
...
建立失效函數(shù)的過(guò)程和匹配過(guò)程類似，修改如下：
...
?for(i = 1; i < s; i++) {
??if(pattern[i] == pattern[array[i - 1]]|| pattern[i] == '?' || pattern[array[i - 1]] == '?')
???array[i] = array[i - 1] + 1;
...

本質(zhì)上，?并沒(méi)有修改算法，而僅僅修改了匹配規(guī)則——遇到?則一定匹配。然而*與此不同，*的作用是匹配任意多個(gè)字符，顯然我們不能簡(jiǎn)單的修改匹配過(guò)程而滿足要求。如果我們重新思考*的作用，我們會(huì)發(fā)現(xiàn)*的另一個(gè)作用就是分割P串，即如果P=P₁*P₂，那么與其說(shuō)*代表匹配任意多個(gè)字符，不如說(shuō)P的匹配條件是在匹配P₁子串后再匹配P₂子串。

現(xiàn)在回顧失效函數(shù)的作用，如果當(dāng)匹配到P的j+1位時(shí)匹配失敗，那么重新開始匹配的時(shí)候，P串的位置調(diào)整到f(j)位，直到P串的位置調(diào)整到0，則匹配重新開始。但當(dāng)P=P₁*P₂，假如P₁已經(jīng)匹配成功，而在P₂中發(fā)生匹配失敗，那么P串要需要調(diào)整位置，但P串無(wú)論如何調(diào)整，此時(shí)也不應(yīng)該調(diào)整到0，最多調(diào)整到P₂的開始處，因?yàn)镻₁已經(jīng)匹配，只需匹配P₂即可。假如P=abcab*abcab，失效函數(shù)應(yīng)該是（注意之前提到*的作用）：
a b c a b * a b c a b
0 0 0 1 2 - 6 6 6 7 8

因此，要想讓KMP支持*，那么關(guān)鍵是要重新設(shè)計(jì)失效函數(shù)的建立算法，如下：
public void Build() {
?if(pattern == null)
??throw new Exception("KMP Exception : null pattern");
?array = new int[pattern.Length];
?int i = 0, s = pattern.Length;
?if(s > 1)
??array[0] = 0;
?int begin = 0;
?for(i = 1; i < s; i++) {
??if(pattern[i] == '*') {
???array[i] = i;
???begin = i + 1;
??} else if(pattern[i] == pattern[array[i - 1]] || pattern[i] == '?' || pattern[array[i - 1]] == '?')
???array[i] = array[i - 1] + 1;
??else
???array[i] = begin;
?}
}?

算法中begin表示每段字符串的開始位置。此外，匹配過(guò)程也應(yīng)該進(jìn)行相應(yīng)的修改，因?yàn)樽址?對(duì)于匹配沒(méi)有任何幫助，它屬于占位符，因此需要跳過(guò)，匹配算法如下：
public int Match(String target, int start) {
?if(array == null || pattern == null || target == null)
??return -1;
?int target_index = start;
?int pattern_index = 0;
?int token_length = target.Length;
?int pattern_length = pattern.Length;
?int begin = 0;
?while(target_index < token_length && pattern_index < pattern_length) {
??if(pattern[pattern_index] == '*') {
???begin = pattern_index + 1;
???pattern_index++;
??} else if(target[target_index] == pattern[pattern_index] || pattern[pattern_index] == '?') {
???target_index++;
???pattern_index++;
??} else {
???if(pattern_index == begin)
????target_index++;
???else
????pattern_index = array[pattern_index - 1];
??}
?}
?if(pattern_index == pattern_length)
??return target_index - pattern_length + begin;
?return -1;
}

5 正則語(yǔ)言和確定狀態(tài)自動(dòng)機(jī)

一個(gè)數(shù)字邏輯的問(wèn)題：設(shè)計(jì)一個(gè)識(shí)別11011的電路，解這個(gè)問(wèn)題的關(guān)鍵就是設(shè)計(jì)出這個(gè)電路的DFA，如下：

仔細(xì)看看這個(gè)狀態(tài)機(jī)，是不是和KMP的算法有幾分類似呢？這并不是巧合，因?yàn)镵MP算法中的失效函數(shù)總可以等價(jià)的轉(zhuǎn)化為一個(gè)DFA。當(dāng)然KMP的DFA遠(yuǎn)比識(shí)別11011的DFA要復(fù)雜，原因在于KMP接受的輸入是全體字符集合，識(shí)別11011的DFA只接受0和1這兩個(gè)輸入。我們知道，一個(gè)正則語(yǔ)言和一個(gè)DFA是等價(jià)的，而KMP計(jì)算失效函數(shù)的算法，實(shí)際上等價(jià)于求DFA的過(guò)程，f(j)的值實(shí)際上表明狀態(tài)j+1接受到不正確的字符時(shí)應(yīng)該回溯到的狀態(tài)（注意此時(shí)輸入流并沒(méi)有前進(jìn)）。普通的字符串都能看成是一個(gè)正則語(yǔ)言，含有通配符?和*的字符串也可以等價(jià)的轉(zhuǎn)換為一個(gè)正則表達(dá)式。但是，正則語(yǔ)言的集合遠(yuǎn)比KMP算法所能支持的模式集合的更大，期間原因還是剛才提過(guò)的輸入問(wèn)題。試想P=p₁p₂...p_n，當(dāng)匹配到p_j的時(shí)候，如果下一個(gè)輸入字符正是p_j，那么狀態(tài)機(jī)進(jìn)入下一個(gè)狀態(tài)，如果不是p_j，那么狀態(tài)機(jī)按照實(shí)效函數(shù)的指示轉(zhuǎn)移到狀態(tài)f(j-1)，也就是說(shuō)KMP狀態(tài)機(jī)的每個(gè)狀態(tài)只能根據(jù)輸入是否為p_j來(lái)進(jìn)行轉(zhuǎn)移。而正則表達(dá)式所對(duì)應(yīng)的狀態(tài)機(jī)則有所不同，如果正則語(yǔ)言L=l₁l₂...l_n，假設(shè)這些都是字母，當(dāng)匹配到l_j位的時(shí)候，如果下一個(gè)輸入字符正是l_j，那么狀態(tài)機(jī)進(jìn)入下一個(gè)狀態(tài)，否則它還可以根據(jù)輸入的值進(jìn)行轉(zhuǎn)移，例如l_j=c₁時(shí)轉(zhuǎn)換到狀態(tài)x，l_j=c₂時(shí)狀態(tài)轉(zhuǎn)換到y(tǒng)等等。

6 結(jié)語(yǔ)

字符串匹配問(wèn)題是老問(wèn)題了，并沒(méi)有太多新意可言，只不過(guò)雖然KMP算法十分簡(jiǎn)單，但它的內(nèi)在含義還是十分深刻的。橫向比較KMP、DFA和正則語(yǔ)言、正則表達(dá)式我們會(huì)發(fā)現(xiàn)，它們之間存在很多的關(guān)聯(lián)，而這種比較也有利于我們更好的理解這些算法，或者改進(jìn)這些算法。最后說(shuō)一句，試圖利用目前的框架使得KMP算法支持全部種類的通配符（對(duì)應(yīng)于正則表達(dá)式就是x?、x*、x+、{m,n}等等）是不可能，而我們也不需要這么做，因?yàn)槲覀冞€有正則表達(dá)式嘛。

posted on 2007-03-05 15:29 保爾任閱讀(5721) 評(píng)論(2) 編輯收藏所屬分類: Arithmetic & Data Structure

FeedBack:

# re: 字符串匹配

2007-04-07 20:12 | 阿里

第一算法，樸素匹配算法，錯(cuò)了。提示一下，少了個(gè)等號(hào) 回復(fù) 更多評(píng)論

# re: 字符串匹配

2007-04-07 20:15 | 阿里

再說(shuō)一句，算法的首字母要小寫，命名規(guī)則。回復(fù) 更多評(píng)論

新用戶注冊(cè) 刷新評(píng)論列表


只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問(wèn) 管理
相關(guān)文章: 求兩個(gè)數(shù)或多個(gè)數(shù)的最大公約數(shù)算法及其實(shí)現(xiàn) 組合數(shù)學(xué)－Catalan數(shù) java用字節(jié)數(shù)截取字符串 java兩個(gè)字符串的最大公共自串字符串匹配 java整型數(shù)組平衡點(diǎn)算法 java字符串全排列問(wèn)題（經(jīng)典）動(dòng)態(tài)規(guī)劃算法二叉樹如何求素?cái)?shù)

<

2007年3月

>

日

一

二

三

四

五

六

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

1 術(shù)語(yǔ)定義

2 樸素匹配算法

3 KMP算法

4 支持通配符?和*的KMP算法

5 正則語(yǔ)言和確定狀態(tài)自動(dòng)機(jī)

6 結(jié)語(yǔ)

常用鏈接

留言簿(4)

隨筆分類

隨筆檔案

文章分類

文章檔案

搜索

最新評(píng)論

閱讀排行榜

評(píng)論排行榜