国产高清视频一区三区,欧美亚洲自拍偷拍,亚洲三级精品

初學(xué)Python，對(duì)Python的文字處理能力有很深的印象，除了str對(duì)象自帶的一些方法外，就是正則表達(dá)式這個(gè)強(qiáng)大的模塊了。但是對(duì)于初學(xué)者來(lái)說(shuō)，要用好這個(gè)功能還是有點(diǎn)難度

，我花了好長(zhǎng)時(shí)間才摸出了點(diǎn)門(mén)道。由于我記性不好，很容易就忘事，所以還是寫(xiě)下來(lái)比較好一些，同時(shí)也可以加深印象，整理思路。

由于我是初學(xué)，所以肯定會(huì)有些錯(cuò)誤，還望高手不吝賜教，指出我的錯(cuò)誤。

1 Python正則式的基本用法

Python的正則表達(dá)式的模塊是‘re’,它的基本語(yǔ)法規(guī)則就是指定一個(gè)字符序列，比如你要在一個(gè)字符串s=’123abc456’中查找字符串’abc’,只要這樣寫(xiě)：

>>> import re

>>> s='123abc456eabc789'

>>> re.findall(r’abc’,s)

結(jié)果就是：

['abc', 'abc']

這里用到的函數(shù)”findall(rule , target [,flag] )” 是個(gè)比較直觀(guān)的函數(shù)，就是在目標(biāo)字符串中查找符合規(guī)則的字符串。第一個(gè)參數(shù)是規(guī)則，第二個(gè)參數(shù)是目標(biāo)字符串，后面

還可以跟一個(gè)規(guī)則選項(xiàng)（選項(xiàng)功能將在compile函數(shù)的說(shuō)明中詳細(xì)說(shuō)明）。返回結(jié)果結(jié)果是一個(gè)列表，中間存放的是符合規(guī)則的字符串。如果沒(méi)有符合規(guī)則的字符串被找到，就返

回一個(gè)空列表。

為什么要用r’ ..‘字符串（raw字符串）？由于正則式的規(guī)則也是由一個(gè)字符串定義的，而在正則式中大量使用轉(zhuǎn)義字符’/’，如果不用raw字符串，則在需要寫(xiě)一個(gè)’/’的地

方，你必須得寫(xiě)成’//’,那么在要從目標(biāo)字符串中匹配一個(gè)’/’的時(shí)候，你就得寫(xiě)上4個(gè)’/’成為’////’！這當(dāng)然很麻煩，也不直觀(guān)，所以一般都使用r’’來(lái)定義規(guī)則字符

串。當(dāng)然，某些情況下，可能不用raw字符串比較好。

以上是個(gè)最簡(jiǎn)單的例子。當(dāng)然實(shí)際中這么簡(jiǎn)單的用法幾乎沒(méi)有意義。為了實(shí)現(xiàn)復(fù)雜的規(guī)則查找，re規(guī)定了若干語(yǔ)法規(guī)則。它們分為這么幾類(lèi)：

功能字符：    ‘.’ ‘*’ ‘+’ ‘|’ ‘?’ ‘^’ ‘$’ ‘/’等，它們有特殊的功能含義。特別是’/’字符，它是轉(zhuǎn)義引導(dǎo)符號(hào)，跟在它后面的字符一般有特殊的含義。

規(guī)則分界符： ‘[‘ ‘]’ ‘（’ ‘）’ ‘{‘ ‘}’等，也就是幾種括號(hào)了。

預(yù)定義轉(zhuǎn)義字符集：“/d” “/w” “/s” 等等，它們是以字符’/’開(kāi)頭，后面接一個(gè)特定字符的形式，用來(lái)指示一個(gè)預(yù)定義好的含義。

其它特殊功能字符：’#’ ‘!’ ‘:’ ‘-‘等，它們只在特定的情況下表示特殊的含義，比如(?# …)就表示一個(gè)注釋?zhuān)锩娴膬?nèi)容會(huì)被忽略。

下面來(lái)一個(gè)一個(gè)的說(shuō)明這些規(guī)則的含義，不過(guò)說(shuō)明的順序并不是按照上面的順序來(lái)的，而是我認(rèn)為由淺入深，由基本到復(fù)雜的順序來(lái)編排的。同時(shí)為了直觀(guān)，在說(shuō)明的過(guò)程中盡量

多舉些例子以方便理解。

1.1基本規(guī)則

‘[‘ ‘]’字符集合設(shè)定符

首先說(shuō)明一下字符集合設(shè)定的方法。由一對(duì)方括號(hào)括起來(lái)的字符，表明一個(gè)字符集合，能夠匹配包含在其中的任意一個(gè)字符。比如[abc123]，表明字符’a’ ‘b’ ‘c’ ‘1’

‘2’ ‘3’都符合它的要求。可以被匹配。

在’[‘ ‘]’中還可以通過(guò)’-‘ 減號(hào)來(lái)指定一個(gè)字符集合的范圍，比如可以用[a-zA-Z]來(lái)指定所以英文字母的大小寫(xiě)，因?yàn)橛⑽淖帜甘前凑諒男〉酱蟮捻樞騺?lái)排的。你不可以

把大小的順序顛倒了，比如寫(xiě)成[z-a]就不對(duì)了。

如果在’[‘ ‘]’里面的開(kāi)頭寫(xiě)一個(gè)‘^’ 號(hào)，則表示取非，即在括號(hào)里的字符都不匹配。如[^a-zA-Z]表明不匹配所有英文字母。但是如果‘^’不在開(kāi)頭，則它就不再是表示

取非，而表示其本身，如[a-z^A-Z]表明匹配所有的英文字母和字符’^’。

‘|’    或規(guī)則

將兩個(gè)規(guī)則并列起來(lái)，以‘|’連接，表示只要滿(mǎn)足其中之一就可以匹配。比如

[a-zA-Z]|[0-9]表示滿(mǎn)足數(shù)字或字母就可以匹配，這個(gè)規(guī)則等價(jià)于[a-zA-Z0-9]

注意：關(guān)于’|’要注意兩點(diǎn)：

第一，           它在’[‘ ‘]’之中不再表示或，而表示他本身的字符。如果要在’[‘ ‘]’外面表示一個(gè)’|’字符，必須用反斜杠引導(dǎo)，即’/|’ ;

第二，           它的有效范圍是它兩邊的整條規(guī)則，比如‘dog|cat’匹配的是‘dog’和’cat’，而不是’g’和’c’。如果想限定它的有效范圍，必需使用一個(gè)無(wú)捕獲組‘

(?: )’包起來(lái)。比如要匹配‘I have a dog’或’I have a cat’，需要寫(xiě)成r’I have a (?:dog|cat)’，而不能寫(xiě)成r’I have a dog|cat’

例

>>> s = ‘I have a dog , I have a cat’

>>> re.findall( r’I have a (?:dog|cat)’ , s )

['I have a dog', 'I have a cat']                #正如我們所要的

下面再看看不用無(wú)捕獲組會(huì)是什么后果：

>>> re.findall( r’I have a dog|cat’ , s )

['I have a dog', 'cat']                                   #它將’I have a dog’和’cat’當(dāng)成兩個(gè)規(guī)則了

至于無(wú)捕獲組的使用，后面將仔細(xì)說(shuō)明。這里先跳過(guò)。

‘.’    匹配所有字符

匹配除換行符’/n’外的所有字符。如果使用了’S’選項(xiàng)，匹配包括’/n’的所有字符。

      例：

       >>> s=’123 /n456 /n789’

       >>> findall(r‘.+’,s)

       ['123', '456', '789']

       >>> re.findall(r‘.+’ , s , re.S)

       ['123/n456/n789']

‘^’和’$’匹配字符串開(kāi)頭和結(jié)尾

注意’^’不能在‘[ ]’中，否則含意就發(fā)生變化，具體請(qǐng)看上面的’[‘ ‘]’說(shuō)明。在多行模式下，它們可以匹配每一行的行首和行尾。具體請(qǐng)看后面compile函數(shù)說(shuō)明的’M

’選項(xiàng)部分

‘/d’匹配數(shù)字

這是一個(gè)以’/’開(kāi)頭的轉(zhuǎn)義字符，’/d’表示匹配一個(gè)數(shù)字，即等價(jià)于[0-9]

‘/D’匹配非數(shù)字

這個(gè)是上面的反集，即匹配一個(gè)非數(shù)字的字符，等價(jià)于[^0-9]。注意它們的大小寫(xiě)。下面我們還將看到Python的正則規(guī)則中很多轉(zhuǎn)義字符的大小寫(xiě)形式，代表互補(bǔ)的關(guān)系。這樣很

好記。

‘/w’匹配字母和數(shù)字

匹配所有的英文字母和數(shù)字，即等價(jià)于[a-zA-Z0-9]。

‘/W’匹配非英文字母和數(shù)字

即’/w’的補(bǔ)集，等價(jià)于[^a-zA-Z0-9]。

‘/s’匹配間隔符

即匹配空格符、制表符、回車(chē)符等表示分隔意義的字符，它等價(jià)于[ /t/r/n/f/v]。（注意最前面有個(gè)空格)

‘/S’匹配非間隔符

即間隔符的補(bǔ)集，等價(jià)于[^ /t/r/n/f/v]

‘/A’匹配字符串開(kāi)頭

匹配字符串的開(kāi)頭。它和’^’的區(qū)別是，’/A’只匹配整個(gè)字符串的開(kāi)頭，即使在’M’模式下，它也不會(huì)匹配其它行的很首。

‘/Z’匹配字符串結(jié)尾

匹配字符串的結(jié)尾。它和’$’的區(qū)別是，’/Z’只匹配整個(gè)字符串的結(jié)尾，即使在’M’模式下，它也不會(huì)匹配其它各行的行尾。

例：

>>> s= '12 34/n56 78/n90'

>>> re.findall( r'^/d+' , s , re.M )          #匹配位于行首的數(shù)字

['12', '56', '90']

>>> re.findall( r’/A/d+’, s , re.M )        #匹配位于字符串開(kāi)頭的數(shù)字

['12']

>>> re.findall( r'/d+$' , s , re.M )          #匹配位于行尾的數(shù)字

['34', '78', '90']

>>> re.findall( r’/d+/Z’ , s , re.M )        #匹配位于字符串尾的數(shù)字

['90']

‘/b’匹配單詞邊界

它匹配一個(gè)單詞的邊界，比如空格等，不過(guò)它是一個(gè)‘0’長(zhǎng)度字符，它匹配完的字符串不會(huì)包括那個(gè)分界的字符。而如果用’/s’來(lái)匹配的話(huà)，則匹配出的字符串中會(huì)包含那個(gè)

分界符。

例：

>>> s = 'abc abcde bc bcd'

>>> re.findall( r’/bbc/b’ , s )         #匹配一個(gè)單獨(dú)的單詞‘bc’ ，而當(dāng)它是其它單詞的一部分的時(shí)候不匹配

['bc']                                           ＃只找到了那個(gè)單獨(dú)的’bc’

>>> re.findall( r’/sbc/s’ , s )          ＃匹配一個(gè)單獨(dú)的單詞‘bc’

[' bc ']                                         #只找到那個(gè)單獨(dú)的’bc’，不過(guò)注意前后有兩個(gè)空格，可能有點(diǎn)看不清楚

‘/B’匹配非邊界

和’/b’相反，它只匹配非邊界的字符。它同樣是個(gè)0長(zhǎng)度字符。

接上例：

>>> re.findall( r’/Bbc/w+’ , s )     #匹配包含’bc’但不以’bc’為開(kāi)頭的單詞

['bcde']                                       #成功匹配了’abcde’中的’bcde’，而沒(méi)有匹配’bcd’

‘(?:)’無(wú)捕獲組

當(dāng)你要將一部分規(guī)則作為一個(gè)整體對(duì)它進(jìn)行某些操作，比如指定其重復(fù)次數(shù)時(shí)，你需要將這部分規(guī)則用’(?:’ ‘)’把它包圍起來(lái)，而不能僅僅只用一對(duì)括號(hào)，那樣將得到絕對(duì)

出人意料的結(jié)果。

例：匹配字符串中重復(fù)的’ab’

>>> s=’ababab abbabb aabaab’

>>> re.findall( r’/b(?:ab)+/b’ , s )

['ababab']

如果僅使用一對(duì)括號(hào)，看看會(huì)是什么結(jié)果：

>>> re.findall( r’/b(ab)+/b’ , s )

['ab']

這是因?yàn)槿绻皇褂靡粚?duì)括號(hào)，那么這就成為了一個(gè)組(group)。組的使用比較復(fù)雜，將在后面詳細(xì)講解。

‘(?# )’注釋

Python允許你在正則表達(dá)式中寫(xiě)入注釋?zhuān)?#8217;(?#’ ‘)’之間的內(nèi)容將被忽略。

(?iLmsux) 編譯選項(xiàng)指定

Python的正則式可以指定一些選項(xiàng)，這個(gè)選項(xiàng)可以寫(xiě)在findall或compile的參數(shù)中，也可以寫(xiě)在正則式里，成為正則式的一部分。這在某些情況下會(huì)便利一些。具體的選項(xiàng)含義請(qǐng)

看后面的compile函數(shù)的說(shuō)明。

此處編譯選項(xiàng)’i’等價(jià)于IGNORECASE ，L 等價(jià)于 LOCAL ，m 等價(jià)于 MULTILINE，s等價(jià)于 DOTALL ，u等價(jià)于UNICODE ， x 等價(jià)于 VERBOSE。

請(qǐng)注意它們的大小寫(xiě)。在使用時(shí)可以只指定一部分，比如只指定忽略大小寫(xiě)，可寫(xiě)為‘(?i)’，要同時(shí)忽略大小寫(xiě)并使用多行模式，可以寫(xiě)為‘(?im)’。

另外要注意選項(xiàng)的有效范圍是整條規(guī)則，即寫(xiě)在規(guī)則的任何地方，選項(xiàng)都會(huì)對(duì)全部整條正則式有效。

1.2重復(fù)

正則式需要匹配不定長(zhǎng)的字符串，那就一定需要表示重復(fù)的指示符。Python的正則式表示重復(fù)的功能很豐富靈活。重復(fù)規(guī)則的一般的形式是在一條字符規(guī)則后面緊跟一個(gè)表示重復(fù)

次數(shù)的規(guī)則，已表明需要重復(fù)前面的規(guī)則一定的次數(shù)。重復(fù)規(guī)則有：

‘*’   0或多次匹配

表示匹配前面的規(guī)則0次或多次。

‘+’   1次或多次匹配

表示匹配前面的規(guī)則至少1次，可以多次匹配

例：匹配以下字符串中的前一部分是字母，后一部分是數(shù)字或沒(méi)有的變量名字

>>> s = ‘ aaa bbb111 cc22cc 33dd ‘

>>> re.findall( r’/b[a-z]+/d*/b’ , s )             #必須至少1個(gè)字母開(kāi)頭，以連續(xù)數(shù)字結(jié)尾或沒(méi)有數(shù)字

['aaa', 'bbb111']

注意上例中規(guī)則前后加了表示單詞邊界的’/b’指示符，如果不加的話(huà)結(jié)果就會(huì)變成：

>>> re.findall( r’[a-z]+/d*’ , s )

['aaa', 'bbb111', 'cc22', 'cc', 'dd']    #把單詞給拆開(kāi)了

大多數(shù)情況下這不是我們期望的結(jié)果。

‘?’   0或1次匹配

只匹配前面的規(guī)則0次或1次。

例，匹配一個(gè)數(shù)字，這個(gè)數(shù)字可以是一個(gè)整數(shù)，也可以是一個(gè)科學(xué)計(jì)數(shù)法記錄的數(shù)字，比如123和10e3都是正確的數(shù)字。

>>> s = ‘ 123 10e3 20e4e4 30ee5 ‘

>>> re.findall( r’ /b/d+[eE]?/d*/b’ , s )

['123', '10e3']

它正確匹配了123和10e3,正是我們期望的。注意前后的’/b’的使用，否則將得到不期望的結(jié)果。

1.2.1 精確匹配和最小匹配

Python正則式還可以精確指定匹配的次數(shù)。指定的方式是

‘{m}’      精確匹配m次

‘{m,n}’   匹配最少m次，最多n次。(n>m)

如果你只想指定一個(gè)最少次數(shù)或只指定一個(gè)最多次數(shù)，你可以把另外一個(gè)參數(shù)空起來(lái)。比如你想指定最少3次，可以寫(xiě)成{3,}（注意那個(gè)逗號(hào)），同樣如果只想指定最大為5次，可

以寫(xiě)成{，5}，也可以寫(xiě)成{0,5}。

例尋找下面字符串中

a：3位數(shù)

b: 2位數(shù)到4位數(shù)

c: 5位數(shù)以上的數(shù)

d: 4位數(shù)以下的數(shù)

>>> s= ‘ 1 22 333 4444 55555 666666 ‘

>>> re.findall( r’/b/d{3}/b’ , s )            # a：3位數(shù)

['333']

>>> re.findall( r’/b/d{2,4}/b’ , s )         # b: 2位數(shù)到4位數(shù)

['22', '333', '4444']

>>> re.findall( r’/b/d{5,}/b’, s )           # c: 5位數(shù)以上的數(shù)

['55555', '666666']

>>> re.findall( r’/b/d{1,4}/b’ , s )         # 4位數(shù)以下的數(shù)

['1', '22', '333', '4444']

‘*?’ ‘+?’ ‘??’最小匹配

‘*’ ‘+’ ‘?’通常都是盡可能多的匹配字符。有時(shí)候我們希望它盡可能少的匹配。比如一個(gè)c語(yǔ)言的注釋‘/* part 1 */ /* part 2 */’，如果使用最大規(guī)則：

>>> s =r ‘/* part 1 */ code /* part 2 */’

>>> re.findall( r’//*.*/*/’ , s )

[‘/* part 1 */ code /* part 2 */’]

結(jié)果把整個(gè)字符串都包括進(jìn)去了。如果把規(guī)則改寫(xiě)成

>>> re.findall( r’//*.*?/*/’ , s )                    #在*后面加上?，表示盡可能少的匹配

['/* part 1 */', '/* part 2 */']

結(jié)果正確的匹配出了注釋里的內(nèi)容

1.3   前向界定與后向界定

有時(shí)候需要匹配一個(gè)跟在特定內(nèi)容后面的或者在特定內(nèi)容前面的字符串，Python提供一個(gè)簡(jiǎn)便的前向界定和后向界定功能，或者叫前導(dǎo)指定和跟從指定功能。它們是：

‘(?<=…)’前向界定

括號(hào)中’…’代表你希望匹配的字符串的前面應(yīng)該出現(xiàn)的字符串。

‘(?=…)’ 后向界定

括號(hào)中的’…’代表你希望匹配的字符串后面應(yīng)該出現(xiàn)的字符串。

例：你希望找出c語(yǔ)言的注釋中的內(nèi)容，它們是包含在’/*’和’*/’之間，不過(guò)你并不希望匹配的結(jié)果把’/*’和’*/’也包括進(jìn)來(lái)，那么你可以這樣用：

>>> s=r’/* comment 1 */ code /* comment 2 */’

>>> re.findall( r’(?<=//*).+?(?=/*/)’ , s )

[' comment 1 ', ' comment 2 ']

注意這里我們?nèi)匀皇褂昧俗钚∑ヅ洌员苊獍颜麄€(gè)字符串給匹配進(jìn)去了。

要注意的是，前向界定括號(hào)中的表達(dá)式必須是常值，也即你不可以在前向界定的括號(hào)里寫(xiě)正則式。比如你如果在下面的字符串中想找到被字母夾在中間的數(shù)字，你不可以用前向界

定：

例：

>>> s = ‘aaa111aaa , bbb222 , 333ccc ‘

>>> re.findall( r’(?<=[a-z]+)/d+(?=[a-z]+)' , s )          #錯(cuò)誤的用法

它會(huì)給出一個(gè)錯(cuò)誤信息：

error: look-behind requires fixed-width pattern

不過(guò)如果你只要找出后面接著有字母的數(shù)字，你可以在后向界定寫(xiě)正則式：

>>> re.findall( r’/d+(?=[a-z]+)’, s )

['111', '333']

如果你一定要匹配包夾在字母中間的數(shù)字，你可以使用組（group）的方式

>>> re.findall (r'[a-z]+(/d+)[a-z]+' , s )

['111']

組的使用將在后面詳細(xì)講解。

除了前向界定前向界定和后向界定外，還有前向非界定和后向非界定，它的寫(xiě)法為：

‘(?<!...)’前向非界定

只有當(dāng)你希望的字符串前面不是’…’的內(nèi)容時(shí)才匹配

‘(?!...)’后向非界定

只有當(dāng)你希望的字符串后面不跟著’…’內(nèi)容時(shí)才匹配。

接上例，希望匹配后面不跟著字母的數(shù)字

>>> re.findall( r’/d+(?!/w+)’ , s )

['222']

注意這里我們使用了/w而不是像上面那樣用[a-z]，因?yàn)槿绻@樣寫(xiě)的話(huà)，結(jié)果會(huì)是：

>>> re.findall( r’/d+(?![a-z]+)’ , s )

['11', '222', '33']

這和我們期望的似乎有點(diǎn)不一樣。它的原因，是因?yàn)?#8217;111’和’222’中的前兩個(gè)數(shù)字也是滿(mǎn)足這個(gè)要求的。因此可看出，正則式的使用還是要相當(dāng)小心的，因?yàn)槲议_(kāi)始就是這樣

寫(xiě)的，看到結(jié)果后才明白過(guò)來(lái)。不過(guò)Python試驗(yàn)起來(lái)很方便，這也是腳本語(yǔ)言的一大優(yōu)點(diǎn)，可以一步一步的試驗(yàn)，快速得到結(jié)果，而不用經(jīng)過(guò)煩瑣的編譯、鏈接過(guò)程。也因此學(xué)習(xí)

Python就要多試，跌跌撞撞的走過(guò)來(lái)，雖然曲折，卻也很有樂(lè)趣。

1.4組的基本知識(shí)

上面我們已經(jīng)看過(guò)了Python的正則式的很多基本用法。不過(guò)如果僅僅是上面那些規(guī)則的話(huà)，還是有很多情況下會(huì)非常麻煩，比如上面在講前向界定和后向界定時(shí)，取夾在字母中間

的數(shù)字的例子。用前面講過(guò)的規(guī)則都很難達(dá)到目的，但是用了組以后就很簡(jiǎn)單了。

‘(‘’)’       無(wú)命名組

最基本的組是由一對(duì)圓括號(hào)括起來(lái)的正則式。比如上面匹配包夾在字母中間的數(shù)字的例子中使用的(/d+)，我們?cè)倩仡櫼幌逻@個(gè)例子：

>>> s = ‘aaa111aaa , bbb222 , 333ccc ‘

>>> re.findall (r'[a-z]+(/d+)[a-z]+' , s )

['111']

可以看到findall函數(shù)只返回了包含在’()’中的內(nèi)容，而雖然前面和后面的內(nèi)容都匹配成功了，卻并不包含在結(jié)果中。

除了最基本的形式外，我們還可以給組起個(gè)名字，它的形式是

‘(?P<name>…)’命名組

‘(?P’代表這是一個(gè)Python的語(yǔ)法擴(kuò)展’<…>’里面是你給這個(gè)組起的名字，比如你可以給一個(gè)全部由數(shù)字組成的組叫做’num’，它的形式就是’(?P<num>/d+)’。起了名字之

后，我們就可以在后面的正則式中通過(guò)名字調(diào)用這個(gè)組，它的形式是

‘(?P=name)’調(diào)用已匹配的命名組

要注意，再次調(diào)用的這個(gè)組是已被匹配的組，也就是說(shuō)它里面的內(nèi)容是和前面命名組里的內(nèi)容是一樣的。

我們可以看更多的例子：請(qǐng)注意下面這個(gè)字符串各子串的特點(diǎn)。

>>> s='aaa111aaa,bbb222,333ccc,444ddd444,555eee666,fff777ggg'

我們看看下面的正則式會(huì)返回什么樣的結(jié)果：

>>> re.findall( r'([a-z]+)/d+([a-z]+)' , s )             #找出中間夾有數(shù)字的字母

[('aaa', 'aaa'), ('fff', 'ggg')]

>>> re.findall( r '(?P<g1>[a-z]+)/d+(?P=g1)' , s ) #找出被中間夾有數(shù)字的前后同樣的字母

['aaa']

>>> re.findall( r'[a-z]+(/d+)([a-z]+)' , s )             #找出前面有字母引導(dǎo)，中間是數(shù)字，后面是字母的字符串中的中間的數(shù)字和后面的字母

[('111', 'aaa'), ('777', 'ggg')]

我們可以通過(guò)命名組的名字在后面調(diào)用已匹配的命名組，不過(guò)名字也不是必需的。

‘/number’             通過(guò)序號(hào)調(diào)用已匹配的組

正則式中的每個(gè)組都有一個(gè)序號(hào)，序號(hào)是按組從左到右，從1開(kāi)始的數(shù)字，你可以通過(guò)下面的形式來(lái)調(diào)用已匹配的組

比如上面找出被中間夾有數(shù)字的前后同樣的字母的例子，也可以寫(xiě)成：

>>> re.findall( r’([a-z]+)/d+/1’ , s )

['aaa']

結(jié)果是一樣的。

我們?cè)倏匆粋€(gè)例子

>>> s='111aaa222aaa111 , 333bbb444bb33'

>>> re.findall( r'(/d+)([a-z]+)(/d+)(/2)(/1)' , s )           #找出完全對(duì)稱(chēng)的數(shù)字－字母－數(shù)字－字母－數(shù)字中的數(shù)字和字母

[('111', 'aaa', '222', 'aaa', '111')]

Python2.4以后的re模塊，還加入了一個(gè)新的條件匹配功能

‘(?(id/name)yes-pattern|no-pattern)’ 判斷指定組是否已匹配，執(zhí)行相應(yīng)的規(guī)則

這個(gè)規(guī)則的含義是，如果id/name指定的組在前面匹配成功了，則執(zhí)行yes-pattern的正則式，否則執(zhí)行no-pattern的正則式。

舉個(gè)例子，比如要匹配一些形如usr@mail的郵箱地址，不過(guò)有的寫(xiě)成< usr@mail >即用一對(duì)<>括起來(lái)，有點(diǎn)則沒(méi)有，要匹配這兩種情況，可以這樣寫(xiě)

>>> s='<usr1@mail1> usr2@maill2'

>>> re.findall( r'(<)?/s*(/w+@/w+)/s*(?(1)>)' , s )

[('<', 'usr1@mail1'), ('', 'usr2@maill2')]

不過(guò)如果目標(biāo)字符串如下

>>> s='<usr1@mail1> usr2@maill2 <usr3@mail3   usr4@mail4> < usr5@mail5 '

而你想得到要么由一對(duì)<>包圍起來(lái)的一個(gè)郵件地址，要么得到一個(gè)沒(méi)有被<>包圍起來(lái)的地址，但不想得到一對(duì)<>中間包圍的多個(gè)地址或不完整的<>中的地址，那么使用這個(gè)式子并

不能得到你想要的結(jié)果

>>> re.findall( r'(<)?/s*(/w+@/w+)/s*(?(1)>)' , s )

[('<', 'usr1@mail1'), ('', 'usr2@maill2'), ('', 'usr3@mail3'), ('', 'usr4@mail4'), ('', 'usr5@mail5')]

它仍然找到了所有的郵件地址。

想要實(shí)現(xiàn)這個(gè)功能，單純的使用findall有點(diǎn)吃力，需要使用其它的一些函數(shù)，比如match或search函數(shù)，再配合一些控制功能。這部分的內(nèi)容將在下面詳細(xì)講解。

小結(jié)：以上基本上講述了Python正則式的語(yǔ)法規(guī)則。雖然大部分語(yǔ)法規(guī)則看上去都很簡(jiǎn)單，可是稍不注意，仍然會(huì)得到與期望大相徑庭的結(jié)果，所以要寫(xiě)好正則式，需要仔細(xì)的體

會(huì)正則式規(guī)則的含義后不同規(guī)則之間細(xì)微的差別。

詳細(xì)的了解了規(guī)則后，再配合后面就要介紹的功能函數(shù)，就能最大的發(fā)揮正則式的威力了。

2 re模塊的基本函數(shù)

在上面的說(shuō)明中，我們已經(jīng)對(duì)re模塊的基本函數(shù)‘findall’很熟悉了。當(dāng)然如果光有findall的話(huà)，很多功能是不能實(shí)現(xiàn)的。下面開(kāi)始介紹一下re模塊其它的常用基本函數(shù)。靈活

搭配使用這些函數(shù)，才能充分發(fā)揮Python正則式的強(qiáng)大功能。

首先還是說(shuō)下老熟人findall函數(shù)吧

findall(rule , target [,flag] )

在目標(biāo)字符串中查找符合規(guī)則的字符串。

第一個(gè)參數(shù)是規(guī)則，第二個(gè)參數(shù)是目標(biāo)字符串，后面還可以跟一個(gè)規(guī)則選項(xiàng)（選項(xiàng)功能將在compile函數(shù)的說(shuō)明中詳細(xì)說(shuō)明）。

返回結(jié)果結(jié)果是一個(gè)列表，中間存放的是符合規(guī)則的字符串。如果沒(méi)有符合規(guī)則的字符串被找到，就返回一個(gè)空列表。

2.1使用compile加速

compile( rule [,flag] )

將正則規(guī)則編譯成一個(gè)Pattern對(duì)象，以供接下來(lái)使用。

第一個(gè)參數(shù)是規(guī)則式，第二個(gè)參數(shù)是規(guī)則選項(xiàng)。

返回一個(gè)Pattern對(duì)象

直接使用findall ( rule , target )的方式來(lái)匹配字符串，一次兩次沒(méi)什么，如果是多次使用的話(huà)，由于正則引擎每次都要把規(guī)則解釋一遍，而規(guī)則的解釋又是相當(dāng)費(fèi)時(shí)間的，

所以這樣的效率就很低了。如果要多次使用同一規(guī)則來(lái)進(jìn)行匹配的話(huà)，可以使用re.compile函數(shù)來(lái)將規(guī)則預(yù)編譯，使用編譯過(guò)返回的Regular Expression Object或叫做Pattern對(duì)

象來(lái)進(jìn)行查找。

例

>>> s='111,222,aaa,bbb,ccc333,444ddd'

>>> rule=r’/b/d+/b’

>>> compiled_rule=re.compile(rule)

>>> compiled_rule.findall(s)

['111', '222']

可見(jiàn)使用compile過(guò)的規(guī)則使用和未編譯的使用很相似。compile函數(shù)還可以指定一些規(guī)則標(biāo)志，來(lái)指定一些特殊選項(xiàng)。多個(gè)選項(xiàng)之間用’|’（位或）連接起來(lái)。

I      IGNORECASE 忽略大小寫(xiě)區(qū)別。

L   LOCAL 字符集本地化。這個(gè)功能是為了支持多語(yǔ)言版本的字符集使用環(huán)境的，比如在轉(zhuǎn)義符/w，在英文環(huán)境下，它代表[a-zA-Z0-9]，即所以英文字符和數(shù)字。如果在一個(gè)法

語(yǔ)環(huán)境下使用，缺省設(shè)置下，不能匹配"é"或"ç"。加上這L選項(xiàng)和就可以匹配了。不過(guò)這個(gè)對(duì)于中文環(huán)境似乎沒(méi)有什么用，它仍然不能匹配中文字符。

M    MULTILINE 多行匹配。在這個(gè)模式下’^’(代表字符串開(kāi)頭)和’$’(代表字符串結(jié)尾)將能夠匹配多行的情況，成為行首和行尾標(biāo)記。比如

>>> s=’123 456/n789 012/n345 678’

>>> rc=re.compile(r’^/d+’)    #匹配一個(gè)位于開(kāi)頭的數(shù)字，沒(méi)有使用M選項(xiàng)

>>> rc.findall(s)

['123']             #結(jié)果只能找到位于第一個(gè)行首的’123’

>>> rcm=re.compile(r’^/d+’,re.M)       #使用M選項(xiàng)

>>> rcm.findall(s)

['123', '789', '345'] #找到了三個(gè)行首的數(shù)字

同樣，對(duì)于’$’來(lái)說(shuō)，沒(méi)有使用M選項(xiàng)，它將匹配最后一個(gè)行尾的數(shù)字，即’678’，加上以后，就能匹配三個(gè)行尾的數(shù)字456 012和678了.

>>> rc=re.compile(r’/d+$’)

>>> rcm=re.compile(r’/d+$’,re.M)

>>> rc.findall(s)

['678']

>>> rcm.findall(s)

['456', '012', '678']

S     DOTALL       ‘.’號(hào)將匹配所有的字符。缺省情況下’.’匹配除換行符’/n’外的所有字符，使用這一選項(xiàng)以后，’.’就能匹配包括’/n’的任何字符了。

U   UNICODE       /w,/W,/b,/B,/d,/D,/s和/S都將使用Unicode。

X     VERBOSE     這個(gè)選項(xiàng)忽略規(guī)則表達(dá)式中的空白，并允許使用’#’來(lái)引導(dǎo)一個(gè)注釋。這樣可以讓你把規(guī)則寫(xiě)得更美觀(guān)些。比如你可以把規(guī)則
>>> rc = re.compile(r"/d+|[a-zA-Z]+")       #匹配一個(gè)數(shù)字或者單詞

使用X選項(xiàng)寫(xiě)成：
>>> rc = re.compile(r""" # start a rule/d+                   # number| [a-zA-Z]+           # word""", re.VERBOSE)在這個(gè)模式下，如果你想匹配一個(gè)空格，你必須

用'/ '的形式（'/'后面跟一個(gè)空格）

2.2 match與search

match( rule , targetString [,flag] )

search( rule , targetString [,flag] )

（注：re的match與search函數(shù)同compile過(guò)的Pattern對(duì)象的match與search函數(shù)的參數(shù)是不一樣的。Pattern對(duì)象的match與search函數(shù)更為強(qiáng)大，是真正最常用的函數(shù)）

按照規(guī)則在目標(biāo)字符串中進(jìn)行匹配。

第一個(gè)參數(shù)是正則規(guī)則，第二個(gè)是目標(biāo)字符串，第三個(gè)是選項(xiàng)（同compile函數(shù)的選項(xiàng)）

返回：若成功返回一個(gè)Match對(duì)象，失敗無(wú)返回

findall雖然很直觀(guān)，但是在進(jìn)行更復(fù)雜的操作時(shí)，就有些力不從心了。此時(shí)更多的使用的是match和search函數(shù)。他們的參數(shù)和findall是一樣的，都是：

match( rule , targetString [,flag] )

search( rule , targetString [,flag] )

不過(guò)它們的返回不是一個(gè)簡(jiǎn)單的字符串列表，而是一個(gè)MatchObject（如果匹配成功的話(huà)）.。通過(guò)操作這個(gè)matchObject，我們可以得到更多的信息。

需要注意的是，如果匹配不成功，它們則返回一個(gè)NoneType。所以在對(duì)匹配完的結(jié)果進(jìn)行操作之前，你必需先判斷一下是否匹配成功了，比如：

>>> m=re.match( rule , target )

>>> if m:                       #必需先判斷是否成功

        doSomethin

這兩個(gè)函數(shù)唯一的區(qū)別是：match從字符串的開(kāi)頭開(kāi)始匹配，如果開(kāi)頭位置沒(méi)有匹配成功，就算失敗了；而search會(huì)跳過(guò)開(kāi)頭，繼續(xù)向后尋找是否有匹配的字符串。針對(duì)不同的需

要，可以靈活使用這兩個(gè)函數(shù)。

關(guān)于match返回的MatchObject如果使用的問(wèn)題，是Python正則式的精髓所在，它與組的使用密切相關(guān)。我將在下一部分詳細(xì)講解，這里只舉個(gè)最簡(jiǎn)單的例子：

例：

>>> s= 'Tom:9527 , Sharry:0003'

>>> m=re.match( r'(?P<name>/w+):(?P<num>/d+)' , s )

>>> m.group()

'Tom:9527'

>>> m.groups()

('Tom', '9527')

>>> m.group(‘name’)

'Tom'

>>> m.group(‘num’)

'9527'

2.3 finditer

finditer( rule , target [,flag] )

參數(shù)同findall

返回一個(gè)迭代器

finditer函數(shù)和findall函數(shù)的區(qū)別是，findall返回所有匹配的字符串，并存為一個(gè)列表，而finditer則并不直接返回這些字符串，而是返回一個(gè)迭代器。關(guān)于迭代器，解釋起來(lái)

有點(diǎn)復(fù)雜，還是看看例子把：

>>> s=’111 222 333 444’

>>> for i in re.finditer(r’/d+’ , s ):

        print i.group(),i.span()          #打印每次得到的字符串和起始結(jié)束位置

結(jié)果是

111 (0, 3)

222 (4, 7)

333 (8, 11)

444 (12, 15)

簡(jiǎn)單的說(shuō)吧，就是finditer返回了一個(gè)可調(diào)用的對(duì)象，使用for i in finditer()的形式，可以一個(gè)一個(gè)的得到匹配返回的Match對(duì)象。這在對(duì)每次返回的對(duì)象進(jìn)行比較復(fù)雜的操作

時(shí)比較有用。

2.4字符串的替換和修改

re模塊還提供了對(duì)字符串的替換和修改函數(shù)，他們比字符串對(duì)象提供的函數(shù)功能要強(qiáng)大一些。這幾個(gè)函數(shù)是

sub ( rule , replace , target [,count] )

subn(rule , replace , target [,count] )

在目標(biāo)字符串中規(guī)格規(guī)則查找匹配的字符串，再把它們替換成指定的字符串。你可以指定一個(gè)最多替換次數(shù)，否則將替換所有的匹配到的字符串。

第一個(gè)參數(shù)是正則規(guī)則，第二個(gè)參數(shù)是指定的用來(lái)替換的字符串，第三個(gè)參數(shù)是目標(biāo)字符串，第四個(gè)參數(shù)是最多替換次數(shù)。

這兩個(gè)函數(shù)的唯一區(qū)別是返回值。

sub返回一個(gè)被替換的字符串

sub返回一個(gè)元組，第一個(gè)元素是被替換的字符串，第二個(gè)元素是一個(gè)數(shù)字，表明產(chǎn)生了多少次替換。

例，將下面字符串中的’dog’全部替換成’cat’

>>> s=’ I have a dog , you have a dog , he have a dog ‘

>>> re.sub( r’dog’ , ‘cat’ , s )

' I have a cat , you have a cat , he have a cat '

如果我們只想替換前面兩個(gè)，則

>>> re.sub( r’dog’ , ‘cat’ , s , 2 )

' I have a cat , you have a cat , he have a dog '

或者我們想知道發(fā)生了多少次替換，則可以使用subn

>>> re.subn( r’dog’ , ‘cat’ , s )

(' I have a cat , you have a cat , he have a cat ', 3)

split( rule , target [,maxsplit] )

切片函數(shù)。使用指定的正則規(guī)則在目標(biāo)字符串中查找匹配的字符串，用它們作為分界，把字符串切片。

第一個(gè)參數(shù)是正則規(guī)則，第二個(gè)參數(shù)是目標(biāo)字符串，第三個(gè)參數(shù)是最多切片次數(shù)

返回一個(gè)被切完的子字符串的列表

這個(gè)函數(shù)和str對(duì)象提供的split函數(shù)很相似。舉個(gè)例子，我們想把上例中的字符串被’,’分割開(kāi)，同時(shí)要去掉逗號(hào)前后的空格

>>> s=’ I have a dog   ,   you have a dog , he have a dog ‘

>>> re.split( ‘/s*,/s*’ , s )

[' I have a dog', 'you have a dog', 'he have a dog ']

結(jié)果很好。如果使用str對(duì)象的split函數(shù)，則由于我們不知道’,’兩邊會(huì)有多少個(gè)空格，而不得不對(duì)結(jié)果再進(jìn)行一次處理。

escape( string )

這是個(gè)功能比較古怪的函數(shù)，它的作用是將字符串中的non-alphanumerics字符（我已不知道該怎么翻譯比較好了）用反義字符的形式顯示出來(lái)。有時(shí)候你可能希望在正則式中匹

配一個(gè)字符串，不過(guò)里面含有很多re使用的符號(hào)，你要一個(gè)一個(gè)的修改寫(xiě)法實(shí)在有點(diǎn)麻煩，你可以使用這個(gè)函數(shù),

例在目標(biāo)字符串s中匹配’(*+?)’這個(gè)子字符串

>>> s= ‘111 222 (*+?) 333’

>>> rule= re.escape( r’(*+?)’ )

>>> print rule

/(/*/+/?/)

>>> re.findall( rule , s )

['(*+?)']

3     更深入的了解re的組與對(duì)象

前面對(duì)Python正則式的組進(jìn)行了一些簡(jiǎn)單的介紹，由于還沒(méi)有介紹到match對(duì)象，而組又是和match對(duì)象密切相關(guān)的，所以必須將它們結(jié)合起來(lái)介紹才能充分地說(shuō)明它們的用途。

不過(guò)再詳細(xì)介紹它們之前，我覺(jué)得有必要先介紹一下將規(guī)則編譯后的生成的patter對(duì)象

3.1編譯后的Pattern對(duì)象

將一個(gè)正則式，使用compile函數(shù)編譯，不僅是為了提高匹配的速度，同時(shí)還能使用一些附加的功能。編譯后的結(jié)果生成一個(gè)Pattern對(duì)象，這個(gè)對(duì)象里面有很多函數(shù)，他們看起來(lái)

和re模塊的函數(shù)非常象，它同樣有findall , match , search ,finditer , sub , subn , split這些函數(shù)，只不過(guò)它們的參數(shù)有些小小的不同。一般說(shuō)來(lái)，re模塊函數(shù)的第一個(gè)

參數(shù)，即正則規(guī)則不再需要了，應(yīng)為規(guī)則就包含在Pattern對(duì)象中了，編譯選項(xiàng)也不再需要了，因?yàn)橐呀?jīng)被編譯過(guò)了。因此re模塊中函數(shù)的這兩個(gè)參數(shù)的位置，就被后面的參數(shù)取

代了。

findall , match , search和finditer這幾個(gè)函數(shù)的參數(shù)是一樣的，除了少了規(guī)則和選項(xiàng)兩個(gè)參數(shù)外，它們又加入了另外兩個(gè)參數(shù)，它們是：查找開(kāi)始位置和查找結(jié)束位置，也就

是說(shuō)，現(xiàn)在你可以指定查找的區(qū)間，除去你不感興趣的區(qū)間。它們現(xiàn)在的參數(shù)形式是：

findall ( targetString [, startPos [,endPos] ] )

finditer ( targetString [, startPos [,endPos] ] )

match ( targetString [, startPos [,endPos] ] )

search ( targetString [, startPos [,endPos] ] )

這些函數(shù)的使用和re模塊的同名函數(shù)使用完全一樣。所以就不多介紹了。

除了和re模塊的函數(shù)同樣的函數(shù)外，Pattern對(duì)象還多了些東西，它們是：

flags       查詢(xún)編譯時(shí)的選項(xiàng)

pattern查詢(xún)編譯時(shí)的規(guī)則

groupindex規(guī)則里的組

這幾個(gè)不是函數(shù)，而是一個(gè)值。它們提供你一些規(guī)則的信息。比如下面這個(gè)例子

>>> p=re.compile( r'(?P<word>/b[a-z]+/b)|(?P<num>/b/d+/b)|(?P<id>/b[a-z_]+/w*/b)' , re.I )

>>> p.flags

2

>>> p.pattern

'(?P<word>//b[a-z]+//b)|(?P<num>//b//d+//b)|(?P<id>//b[a-z_]+//w*//b)'

>>> p.groupindex

{'num': 2, 'word': 1, 'id': 3}

我們來(lái)分析一下這個(gè)例子：這個(gè)正則式是匹配單詞、或數(shù)字、或一個(gè)由字母或’_’開(kāi)頭，后面接字母或數(shù)字的一個(gè)ID。我們給這三種情況的規(guī)則都包入了一個(gè)命名組，分別命名

為’word’ , ‘num’和‘id’。我們規(guī)定大小寫(xiě)不敏感，所以使用了編譯選項(xiàng)‘I’。

編譯以后返回的對(duì)象為p，通過(guò)p.flag我們可以查看編譯時(shí)的選項(xiàng)，不過(guò)它顯示的不是’I’，而是一個(gè)數(shù)值2。其實(shí)re.I是一個(gè)整數(shù)，2就是它的值。我們可以查看一下：

>>> re.I

2

>>> re.L

4

>>> re.M

8

…

每個(gè)選項(xiàng)都是一個(gè)數(shù)值。

通過(guò)p.pattern可以查看被編譯的規(guī)則是什么。使用print的話(huà)會(huì)更好看一些

>>> print p.pattern

(?P<word>/b[a-z]+/b)|(?P<num>/b/d+/b)|(?P<id>/b[a-z_]+/w*/b)

看，和我們輸入的一樣。

接下來(lái)的p.groupindex則是一個(gè)字典，它包含了規(guī)則中的所有命名組。字典的key是名字，values是組的序號(hào)。由于字典是以名字作為key，所以一個(gè)無(wú)命名的組不會(huì)出現(xiàn)在這里。

3.2組與Match對(duì)象

組與Match對(duì)象是Python正則式的重點(diǎn)。只有掌握了組和Match對(duì)象的使用，才算是真正學(xué)會(huì)了Python正則式。

3.2.1 組的名字與序號(hào)

正則式中的每個(gè)組都有一個(gè)序號(hào)，它是按定義時(shí)從左到右的順序從1開(kāi)始編號(hào)的。其實(shí)，re的正則式還有一個(gè)0號(hào)組，它就是整個(gè)正則式本身。

我們來(lái)看個(gè)例子

>>> p=re.compile( r’(?P<name>[a-z]+)/s+(?P<age>/d+)/s+(?P<tel>/d+).*’ , re.I )

>>> p.groupindex

{'age': 2, 'tel': 3, 'name': 1}

>>> s=’Tom 24 88888888 <=’

>>> m=p.search(s)

>>> m.groups()                           #看看匹配的各組的情況

('Tom', '24', '8888888')

>>> m.group(‘name’)                   #使用組名獲取匹配的字符串

‘Tom’

>>> m.group( 1 )                         #使用組序號(hào)獲取匹配的字符串，同使用組名的效果一樣

>>> m.group(0)                           # 0組里面是什么呢？

'Tom 24 88888888 <='

原來(lái)0組就是整個(gè)正則式,包括沒(méi)有被包圍到組里面的內(nèi)容。當(dāng)獲取0組的時(shí)候，你可以不寫(xiě)這個(gè)參數(shù)。m.group(0)和m.group()的效果是一樣的：

>>> m.group()

'Tom 24 88888888 <='

接下來(lái)看看更多的Match對(duì)象的方法，看看我們能做些什么。

3.2.2 Match對(duì)象的方法

group([index|id]) 獲取匹配的組，缺省返回組0,也就是全部值

groups()               返回全部的組

groupdict()           返回以組名為key，匹配的內(nèi)容為values的字典

接上例：

>>> m.groupindex()

{'age': '24', 'tel': '88888888', 'name': 'Tom'}

start( [group] )     獲取匹配的組的開(kāi)始位置

end( [group] )              獲取匹配的組的結(jié)束位置

span( [group] )     獲取匹配的組的（開(kāi)始，結(jié)束）位置

expand( template )根據(jù)一個(gè)模版用找到的內(nèi)容替換模版里的相應(yīng)位置

這個(gè)功能比較有趣，它根據(jù)一個(gè)模版來(lái)用匹配到的內(nèi)容替換模版中的相應(yīng)位置，組成一個(gè)新的字符串返回。它使用/g<index|name>或/index來(lái)指示一個(gè)組。

接上例

>>> m.expand(r'name is /g<1> , age is /g<age> , tel is /3')

'name is Tom , age is 24 , tel is 88888888'

除了以上這些函數(shù)外，Match對(duì)象還有些屬性

pos         搜索開(kāi)始的位置參數(shù)

endpos 搜索結(jié)束的位置參數(shù)

這兩個(gè)是使用findall或match等函數(shù)時(shí)，傳入的參數(shù)。在上面這個(gè)例子里，我們沒(méi)有指定開(kāi)始和結(jié)束位置，那么缺省的開(kāi)始位置就是0,結(jié)束位置就是最后。

>>> m.pos

0

>>> m.endpos

19

lastindex 最后匹配的組的序號(hào)

>>> m.lastindex

3

lastgroup       最后匹配的組名

>>> m.lastgroup

'tel'

re    產(chǎn)生這個(gè)匹配的Pattern對(duì)象，可以認(rèn)為是個(gè)逆引用

>>> m.re.pattern

'(?P<name>[a-z]+)//s+(?P<age>//d+)//s+(?P<tel>//d+).*'

得到了產(chǎn)生這個(gè)匹配的規(guī)則

string 匹配的目標(biāo)字符串

>>> m.string

'Tom 24 88888888 <='

轉(zhuǎn)自:http://hi.baidu.com/yangdaming1983/item/e6a8146255a5442169105b91

Python讀寫(xiě)文件

linux 下的iconv命令可以把Windows默認(rèn)GBK編碼的文件轉(zhuǎn)成Linux下用的UTF-8編碼。

2. 安裝一個(gè)比較有幫助性的編輯器: sudo apt-get install texmaker

A useful webiste http://chixi.an.blog.163.com/blog/static/29359272201262952120729/

轉(zhuǎn)載自：cool shell，作者：陳皓
From:http://coolshell.cn/articles/7992.html

先說(shuō)明一下，我不希望本文變成語(yǔ)言爭(zhēng)論貼。希望下面的文章能讓我們客觀(guān)理性地了解C++這個(gè)語(yǔ)言。（另，我覺(jué)得技術(shù)爭(zhēng)論不要停留在非黑即白的二元價(jià)值觀(guān)上，這樣爭(zhēng)論無(wú)非就是比誰(shuí)的嗓門(mén)大，比哪一方的觀(guān)點(diǎn)強(qiáng)，毫無(wú)價(jià)值。我們應(yīng)該多看看技術(shù)是怎么演進(jìn)的，怎么取舍的。）

事由

周五的時(shí)候，我在我的微博上發(fā)了一個(gè)貼說(shuō)了一下一個(gè)網(wǎng)友給我發(fā)來(lái)的C++程序的規(guī)范和內(nèi)存管理寫(xiě)的不是很好（后來(lái)我刪除了，因?yàn)楫?dāng)事人要求），我并非批判，只是想說(shuō)明其實(shí)程序員是需要一些“疫苗”的，并以此想開(kāi)一個(gè)“程序員疫苗的網(wǎng)站”，結(jié)果，@簡(jiǎn)悅云風(fēng)同學(xué)直接回復(fù)到：“不要用 C++ 直接用 C , 就沒(méi)那么多坑了。”就把這個(gè)事帶入了語(yǔ)言之爭(zhēng)。

@左耳朵耗子

：說(shuō)C++比C的坑更多的人我可以理解，但理性地思考一下。C語(yǔ)言的坑也不少啊，如果說(shuō)C語(yǔ)言有90個(gè)坑，那么C++就是100個(gè)坑（另，我看很多人都把C語(yǔ)言上的坑也歸到了C++上來(lái)），但是C++你得到的東西更多，封裝，多態(tài)，繼承擴(kuò)展，泛型編程，智能指針，……，你得到了500%東西，但卻只多了10%的坑，多值啊。

結(jié)果引來(lái)了更多的回復(fù)（只節(jié)選了一些言論）：

那么，C++的坑真的多么？我還請(qǐng)大家理性地思考一下。

不要太糾結(jié)上圖，只是輕松一下，我沒(méi)那么無(wú)聊，讓我們來(lái)看點(diǎn)真正的論據(jù)。

相信用過(guò)C++的程序員知道，C++的很多特性主要就是解決C語(yǔ)言中的各種不完美和缺陷：（注：C89、C99中許多的改進(jìn)正是從C++中所引進(jìn)的）

上述的這些東西填了不知有多少的C語(yǔ)言編程和維護(hù)的坑。少用指針，多用引用，試試autoptr，用用封裝，繼承，多態(tài)和函數(shù)重載…… 你面對(duì)的坑只會(huì)比C少，不會(huì)多。

C++的坑有多少？

C++的坑真的不多，如果你能花兩到三周的時(shí)候讀一下《Effecitve C++》里的那50多個(gè)條款，你就知道C++里的坑并不多，而且，有很多條款告訴我們C++是怎么解決C的坑的。然后，你可以讀讀《Exceptional C++》和《More Exceptional C++》，你可以了解一下C++各種問(wèn)題的解決方法和一些常見(jiàn)的經(jīng)典錯(cuò)誤。

當(dāng)然，C++在解決了很多C語(yǔ)的坑的同時(shí)，也因?yàn)镺O和泛型又引入了一些坑。消一些，加一些，我個(gè)人感覺(jué)上總體上只比C多10%左右吧。但是你有了開(kāi)發(fā)速度更快，代碼更易讀，更易維護(hù)的500%的利益。

另外，不可否認(rèn)的是，C++中的代碼出了錯(cuò)誤，有時(shí)候很難搞，而且似乎用C++的人會(huì)覺(jué)得C++更容易出錯(cuò)？我覺(jué)得主要是下面幾個(gè)原因：

另外，C++的編譯對(duì)標(biāo)準(zhǔn)C++的實(shí)現(xiàn)各異，支持地也千差萬(wàn)別，所以會(huì)有一些比較奇怪的問(wèn)題，但是如果你一般用用C++的封裝，繼承，多態(tài)，以及namespace，const, refernece, inline, templete, overloap, autoptr，還有一些OO 模式，并不會(huì)出現(xiàn)奇怪的問(wèn)題。

而對(duì)于STL中的各種坑，我覺(jué)得是程序員們還對(duì)GP（泛型編程）理解得還不夠，STL是泛型編程的頂級(jí)實(shí)踐！屬于是大師級(jí)的作品，一般人很難理解。必需承認(rèn)STL寫(xiě)出來(lái)的代碼和編譯錯(cuò)誤的確相當(dāng)復(fù)雜晦澀，太難懂了。這也是C++的一個(gè)詬病。

這和Linus說(shuō)的一樣 —— “C++是一門(mén)很恐怖的語(yǔ)言，而比它更恐怖的是很多不合格的程序員在使用著它”。注意我飄紅了“很多不合格的程序員”！

我覺(jué)得C++并不適合初級(jí)程序員使用，C++只適合高級(jí)程序員使用（參看《21天學(xué)好C++》和《C++學(xué)習(xí)自信心曲線(xiàn)》），正如《Why C++》中說(shuō)的，C++適合那些對(duì)開(kāi)發(fā)維護(hù)效率和系統(tǒng)性能同時(shí)關(guān)注的高級(jí)程序員使用。

這就好像飛機(jī)一樣，開(kāi)飛機(jī)很難，開(kāi)飛機(jī)要注意的東西太多太多，對(duì)駕駛員的要求很高，但你不能說(shuō)飛機(jī)這個(gè)工具很爛，開(kāi)飛機(jī)的坑太多。（注：我這里并不是說(shuō)C++是飛機(jī)，C是汽車(chē)，C++和C的差距，比飛機(jī)到汽車(chē)的差距少太多太多，這里主要是類(lèi)比，我們對(duì)待C++語(yǔ)言的心態(tài)！）

C++的初衷

理解C++設(shè)計(jì)的最佳讀本是《C++演化和設(shè)計(jì)》，在這本書(shū)中Stroustrup說(shuō)了些事：

1）Stroustrup對(duì)C是非常欣賞，實(shí)際上早期C++許多的工作是對(duì)于C的強(qiáng)化和凈化，并把完全兼容C作為強(qiáng)制性要求。C89、C99中許多的改進(jìn)正是從C++中所引進(jìn)。可見(jiàn)，Stroustrup對(duì)C語(yǔ)言的貢獻(xiàn)非常之大。今天不管你對(duì)C++怎么看，C++的確擴(kuò)展和進(jìn)化了C，對(duì)C造成了深遠(yuǎn)的影響。

2）Stroustrup對(duì)于C的抱怨主要來(lái)源于兩個(gè)方面——在C++兼容C的過(guò)程中遇到了不少設(shè)計(jì)實(shí)現(xiàn)上的麻煩；以及守舊的K&R C程序員對(duì)Stroustrup的批評(píng)。很多人說(shuō)C++的惡夢(mèng)就是要去兼容于C，這并不無(wú)道理（Java就干的比C++徹底得多），但這并不是Stroustrup考慮的，Stroustrup一邊在使盡渾身解數(shù)來(lái)兼容C，另一方面在拼命地優(yōu)化C。

3）Stroustrup在書(shū)中直接說(shuō)，C++最大的競(jìng)爭(zhēng)對(duì)手正是C，他的目的就是——C能做到的，C++也必須做到，而且要做的更好。大家覺(jué)得是不是做到了？有多少做到了，有多少還沒(méi)有做到？

4）對(duì)于同時(shí)關(guān)注的運(yùn)行效率和開(kāi)發(fā)效率的程序員，Stroustrup多次強(qiáng)調(diào)C++的目標(biāo)是——“在保證效率與C語(yǔ)言相當(dāng)?shù)那闆r下，加強(qiáng)程序的組織性；能保證同樣功能的程序，C++更短小”，這正是淺封裝的核心思想。而不是過(guò)渡設(shè)計(jì)的OO。（參看：面向?qū)ο笫莻€(gè)騙局）

5）這本書(shū)中舉了很多例子來(lái)回應(yīng)那些批評(píng)C++有運(yùn)行性能問(wèn)題的人。C++在其第二個(gè)版本中，引入了虛函數(shù)機(jī)制，這是C++效率最大的瓶頸了，但我個(gè)人認(rèn)為虛函數(shù)就是多了一次加法運(yùn)算，但讓我們的代碼能有更好的組織，極大增加了程序的閱讀和降底了維護(hù)成本。（注：Lippman的《深入探索C++對(duì)象模型》也說(shuō)明了C++不比C的程序在運(yùn)行性能低。Bruce的《Think in C++》也說(shuō)C++和C的性能相差只有5%）

6）這本書(shū)中還講了一些C++的痛苦的取舍，印象最深的就是多重繼承，提出，拿掉，再被提出，反復(fù)很多次，大家在得與失中不斷地辯論和取舍。這個(gè)過(guò)程讓我最大的收獲是——a) 對(duì)于任何一種設(shè)計(jì)都有好有壞，都只能偏重一方，b) 完全否定式的批評(píng)是不好的心態(tài)，好的心態(tài)應(yīng)該是建設(shè)性地批評(píng)。

我對(duì)C++的感情

我畢業(yè)時(shí)，是直接從C跳過(guò)C++學(xué)Java的，但是學(xué)Java的時(shí)候，不知道為什么Java要設(shè)計(jì)成這樣，只好回頭看C++，結(jié)果學(xué)C++的時(shí)候又有很多不懂，又只得回頭看C，最后發(fā)現(xiàn)，C -> C++ -> Java的過(guò)程，就是C++填C的坑，Java填C++的坑的過(guò)程。

當(dāng)然時(shí)代還在前進(jìn)，這個(gè)演變的過(guò)程還在C#和Go上體現(xiàn)著。不過(guò)我學(xué)習(xí)了C -> C++ -> Java這個(gè)填坑演進(jìn)的過(guò)程，讓我明白了很多東西：

我從這個(gè)學(xué)習(xí)過(guò)程中得到的最大的收獲不是語(yǔ)言本身，而是各式各樣的編程技術(shù)和方法，和技術(shù)的演進(jìn)的過(guò)程，這比語(yǔ)言本身更重要！（在這個(gè)角度上學(xué)習(xí)，你看到的不是一個(gè)又一個(gè)的坑，你看到的是——各式各樣讓你可以爬得更高的梯子）

我對(duì)C++的感情有三個(gè)過(guò)程：先是喜歡地要死，然后是恨地要死，現(xiàn)在的又愛(ài)又恨，愛(ài)的是這個(gè)語(yǔ)言，恨的是很多不合格的人在濫用和凌辱它。

C++的未來(lái)

C++語(yǔ)言發(fā)展大概可以分為三個(gè)階段（摘自Wikipedia）：

在《Why C++? 王者歸來(lái)》中說(shuō)了，性能主要就是要省電，省電就是省錢(qián)，在數(shù)據(jù)中心還不明顯，在手機(jī)上就更明顯了，這就是為什么Android 支持C++的原因。所以，在NB的電池或是能源出現(xiàn)之前，如果你需要注重程序的運(yùn)行性能和開(kāi)發(fā)效率，并更關(guān)注程序的運(yùn)性能，那么，應(yīng)該首選 C++。這就是iOS開(kāi)發(fā)也支持C++的原因。

今天的C++11中不但有更多更不錯(cuò)的東西，而且，還填了更多原來(lái)C++的坑。（參看：C++11 Wiki，C++ 11的主要特性）

總結(jié)

最后，非常感謝能和“@簡(jiǎn)悅云風(fēng)”，“@淘寶諸霸”，“@Laruence”一起討論這個(gè)問(wèn)題！無(wú)論你們的觀(guān)點(diǎn)怎么樣，我都和你們“在一起”，嘿嘿嘿……

轉(zhuǎn)載Cool Shell，作者：陳皓

From:http://coolshell.cn/articles/2250.html

下面是一個(gè)《Teach Yourself C++ in 21 Days》的流程圖，請(qǐng)各位程序員同仁認(rèn)真領(lǐng)會(huì)。如果有必要，你可以查看這個(gè)圖書(shū)以作參照：http://www.china-pub.com/27043

看完上面這個(gè)圖片，我在想，我學(xué)習(xí)C++有12年了，好像C++也沒(méi)有學(xué)得特別懂，看到STL和泛型，還是很頭大。不過(guò)，我應(yīng)該去考慮研究量子物理和生物化學(xué)，這樣，我才能重返98年殺掉還在大學(xué)的我，然后達(dá)到21天搞定C++的目標(biāo)。另外，得要特別提醒剛剛開(kāi)始學(xué)習(xí)C++的朋友，第21天的時(shí)候，小心被人殺害。呵呵。

當(dāng)然，上面只是一個(gè)惡搞此類(lèi)圖片，學(xué)習(xí)一門(mén)技術(shù)，需要你很長(zhǎng)的時(shí)間，正如圖片中的第三圖和第四圖所示，你需要用十年的時(shí)間去不斷在嘗試，并在錯(cuò)誤中總結(jié)經(jīng)驗(yàn)教訓(xùn)，以及在項(xiàng)目開(kāi)發(fā)中通過(guò)與別人相互溝通互相學(xué)習(xí)來(lái)歷練自己。你才能算得上是真正學(xué)會(huì)。

這里有篇文章叫《Teach Yourself Programming in Ten Years》，網(wǎng)上有人翻譯了一下，不過(guò)原文已被更新了，我把網(wǎng)上的譯文轉(zhuǎn)載并更新如下：

用十年來(lái)學(xué)編程
Peter Norvig

為什么每個(gè)人都急不可耐？

10年學(xué)編程

抱著這些想法，我很懷疑從書(shū)上到底能學(xué)到多少東西。在我第一個(gè)孩子出生前，我讀完了所有“怎樣……”的書(shū)，卻仍然感到自己是個(gè)茫無(wú)頭緒的新手。30個(gè)月后，我第二個(gè)孩子出生的時(shí)候，我重新拿起那些書(shū)來(lái)復(fù)習(xí)了嗎？不。相反，我依靠我自己的經(jīng)驗(yàn)，結(jié)果比專(zhuān)家寫(xiě)的幾千頁(yè)東西更有用更靠得住。

Fred Brooks在他的短文《No Silver Bullets》（沒(méi)有銀彈）中確立了如何發(fā)現(xiàn)杰出的軟件設(shè)計(jì)者的三步規(guī)劃：

這實(shí)際上是假定了有些人本身就具有成為杰出設(shè)計(jì)師的必要潛質(zhì)；要做的只是引導(dǎo)他們前進(jìn)。Alan Perlis說(shuō)得更簡(jiǎn)潔：“每個(gè)人都可以被教授如何雕塑；而對(duì)米開(kāi)朗基羅來(lái)說(shuō)，能教給他的倒是怎樣能夠不去雕塑。杰出的程序員也一樣”。

所以盡管去買(mǎi)那些Java書(shū)；你很可能會(huì)從中找到些用處。但你的生活，或者你作為程序員的真正的專(zhuān)業(yè)技術(shù)，并不會(huì)因此在24小時(shí)、24天甚至24個(gè)月內(nèi)發(fā)生真正的變化。

怎樣做研究（一）

幾年前，我寫(xiě)了一套膠片，題目是《怎樣做研究》，多次在實(shí)驗(yàn)室內(nèi)部給學(xué)生們做報(bào)告，也曾對(duì)外講過(guò)一次，聽(tīng)眾反應(yīng)良好。也有網(wǎng)友讀過(guò)這套膠片，給我來(lái)信稱(chēng)有所收獲。然而，膠片中的文字畢竟只是提綱攜領(lǐng)，無(wú)法充分闡述我的想法，為此，借周末一點(diǎn)閑暇，把《怎樣做研究》寫(xiě)成一篇文章，與師友切磋。

科學(xué)是分科的學(xué)問(wèn)，客觀(guān)地說(shuō)，是起源于西方的。中國(guó)只有經(jīng)驗(yàn)科學(xué)，典型的如中醫(yī)。我的母親是學(xué)中醫(yī)的，我從小就對(duì)中醫(yī)耳濡目染，生了病，媽媽就會(huì)請(qǐng)他的老師來(lái)，一貼小藥下去，我的病就好了。因此，我對(duì)中醫(yī)一直是很信服的。然而，近些年來(lái)，中醫(yī)多受批評(píng)，發(fā)展也越來(lái)越緩慢，究其原因，中醫(yī)不是科學(xué)，或者說(shuō)只是經(jīng)驗(yàn)科學(xué)，而非實(shí)證科學(xué)。中藥的成分以及生化功效不曾用實(shí)驗(yàn)進(jìn)行深入的分析，望聞問(wèn)切的診斷方法完全憑經(jīng)驗(yàn)而無(wú)法量化，陰陽(yáng)五行的理論似是而非，祖?zhèn)髅胤降膫鞒蟹绞脚c知識(shí)共享的現(xiàn)代思維背道而馳。因此，盡管中醫(yī)有診治的整體觀(guān)和方劑的個(gè)性化兩大優(yōu)點(diǎn)，但其停留于經(jīng)驗(yàn)層面，而遲遲不能進(jìn)入科學(xué)的殿堂，因此在現(xiàn)代社會(huì)中的發(fā)展必然步履維艱。

中醫(yī)不是科學(xué)，那到底什么是科學(xué)呢？科學(xué)（自然科學(xué)）是人們用來(lái)認(rèn)識(shí)和改造自然世界的思維武器，科學(xué)研究可以分為基礎(chǔ)研究（理論研究）和應(yīng)用研究（技術(shù)研發(fā)）。

萬(wàn)事萬(wàn)物皆有其規(guī)律，掌握并且利用這些規(guī)律就能夠?yàn)槿祟?lèi)造福，這些規(guī)律是隱蔽在紛繁復(fù)雜的現(xiàn)象背后的，要識(shí)破大自然的奧秘，讀懂上帝的天書(shū)，非要下一番深入觀(guān)察和探究的功夫不可。以揭示規(guī)律為目的的研究活動(dòng)屬于基礎(chǔ)研究，從事這些活動(dòng)的學(xué)者是科學(xué)家。規(guī)律不是被創(chuàng)造出來(lái)的，而是早已存在的，人們只有認(rèn)識(shí)規(guī)律的權(quán)利，而沒(méi)有創(chuàng)造規(guī)律的可能。

從根本上講，推動(dòng)基礎(chǔ)研究的也是人們?cè)谏a(chǎn)生活中的一些實(shí)際需要，但是隨著基礎(chǔ)研究的深入，理論已經(jīng)成為一個(gè)龐大的體系，理論研究早已開(kāi)始按照它自有的邏輯獨(dú)立發(fā)展，而不必時(shí)時(shí)刻刻聯(lián)系實(shí)際需要，比如著名的歌德巴赫猜想，可能在百年之后，發(fā)現(xiàn)其有重大的應(yīng)用價(jià)值，但是目前到底有什么用，誰(shuí)也說(shuō)不清楚。理論的價(jià)值在今天這個(gè)非常講求短期功利的社會(huì)中常常被忽視，現(xiàn)在有一種傾向認(rèn)為只有產(chǎn)生實(shí)際經(jīng)濟(jì)效益的科研工作才有價(jià)值，這種極端化的觀(guān)點(diǎn)顯然是錯(cuò)誤的，我們必須承認(rèn)并高度尊重理論研究者的成就。

理論研究的直接動(dòng)力是科學(xué)家的好奇心，以及他們對(duì)科學(xué)榮譽(yù)的渴望。越是單純的科學(xué)家越有希望發(fā)現(xiàn)真理，他們的科學(xué)探索有點(diǎn)像迷宮探寶或者海邊拾貝，偉大的科學(xué)家都是沒(méi)有喪失童趣的人，他們?cè)趯?shí)驗(yàn)室里是寧?kù)o而愉快的，他們是樂(lè)此不疲的，很多在常人看來(lái)難以忍受的寂寞在他們看來(lái)卻是一種幸福。越是找不到答案，越是激發(fā)探索的熱情，在一次次的失敗中積累著煩悶與緊張，在終于取得突破后興奮異常。與此同時(shí)，也必須承認(rèn)科學(xué)榮譽(yù)也是激勵(lì)科學(xué)家們前進(jìn)的重要?jiǎng)恿Γ灰獎(jiǎng)e把榮譽(yù)看得高于真理，貨真價(jià)實(shí)的榮譽(yù)仍然是值得追求的。

理論上的突破對(duì)應(yīng)用研究產(chǎn)生持續(xù)不斷的推動(dòng)力，在模式識(shí)別領(lǐng)域，神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、條件隨機(jī)域等等機(jī)器學(xué)習(xí)技術(shù)不斷出現(xiàn)，每當(dāng)一項(xiàng)理論出現(xiàn)，應(yīng)用研究者們爭(zhēng)相將其應(yīng)用于自己的研究課題中，于是基于神經(jīng)網(wǎng)絡(luò)、基于支持向量機(jī)、基于條件隨機(jī)域的某某研究就成為一個(gè)標(biāo)準(zhǔn)的論文題目。首先把某項(xiàng)理論應(yīng)用于某個(gè)實(shí)際課題的研究工作應(yīng)該說(shuō)還是具有一定的創(chuàng)新性的，畢竟用一個(gè)新的思路、新的模型去觀(guān)察了一個(gè)舊的課題，HMM在語(yǔ)音識(shí)別上的成功應(yīng)用就是一例。有人比喻說(shuō)，理論工具仿佛是錘子，實(shí)際課題好比是釘子，一個(gè)新的錘子被打造出來(lái)，大家都借用過(guò)來(lái)砸一砸自己手頭的釘子，確屬常理。不過(guò)，需要注意的事，如果拿一個(gè)碩大無(wú)比的汽錘去砸一個(gè)纖細(xì)的大頭針就荒誕可笑了，不注意思考問(wèn)題與理論的適配關(guān)系而盲目跟風(fēng)的事情在學(xué)術(shù)界也是司空見(jiàn)慣，比如我們就曾用HMM試圖解決詞義消歧的問(wèn)題，而每個(gè)多義詞的詞義跟它前后一兩個(gè)詞并沒(méi)有緊密的關(guān)系，因此詞義消歧貌似和詞性標(biāo)注一樣屬于線(xiàn)性序列標(biāo)注問(wèn)題，其實(shí)是有根本差別的。

我們是搞計(jì)算機(jī)的，計(jì)算機(jī)是一門(mén)應(yīng)用科學(xué)，應(yīng)用科學(xué)是由應(yīng)用驅(qū)動(dòng)的。時(shí)至今日，數(shù)學(xué)定理和物理學(xué)定律似乎已經(jīng)被先哲們發(fā)現(xiàn)的差不多了，因此整個(gè)科學(xué)界中純粹搞理論研究的人越來(lái)越少，很多大學(xué)教授都和工業(yè)界有著密切的聯(lián)系，很多大企業(yè)也開(kāi)辦企業(yè)研究院，這些導(dǎo)致應(yīng)用科學(xué)的研究如火如荼。最近，國(guó)家863設(shè)立了一個(gè)"中文為核心的多語(yǔ)言信息處理"重點(diǎn)項(xiàng)目，總經(jīng)費(fèi)7000萬(wàn)，這在多年前的大陸語(yǔ)言處理界完全是不可想象的。

應(yīng)用驅(qū)動(dòng)，也可以說(shuō)是市場(chǎng)驅(qū)動(dòng)。市場(chǎng)是一個(gè)精靈古怪的家伙，搞應(yīng)用研究的人如果對(duì)市場(chǎng)的未來(lái)沒(méi)有一個(gè)基本準(zhǔn)確地判斷，往往會(huì)導(dǎo)致選題上的偏差。二十年前，國(guó)內(nèi)一些研究者開(kāi)始研究漢字手寫(xiě)輸入技術(shù)，開(kāi)始人們覺(jué)得從鍵盤(pán)輸入漢字很困難，手寫(xiě)輸入一定有前途，但是很快，拼音輸入法大面積普及，而且拼音輸入的速度遠(yuǎn)比在手寫(xiě)板上輸入漢字快得多，于是漢字手寫(xiě)輸入套件根本賣(mài)不動(dòng)，前景黯淡。有人開(kāi)始猶豫，有人開(kāi)始轉(zhuǎn)向搞印刷體漢字識(shí)別等，但忽然有一天，集成了手寫(xiě)功能的商務(wù)通大量熱銷(xiāo)，人們忽然發(fā)現(xiàn)原來(lái)在手持設(shè)備上由于鍵盤(pán)太小，輸入不便，給手寫(xiě)功能留下了很大的應(yīng)用空間。一直專(zhuān)注于手寫(xiě)識(shí)別的漢王公司也借著商務(wù)通的熱銷(xiāo)而把多年的科研成果成功地產(chǎn)業(yè)化了。再舉一個(gè)例子：5年前，我認(rèn)為以圖像為輸入的圖像檢索沒(méi)有什么應(yīng)用價(jià)值，問(wèn)這些技術(shù)的倡導(dǎo)者，他們也只說(shuō)能夠在數(shù)碼相冊(cè)中可以找到一些應(yīng)用，但近來(lái)聽(tīng)了微軟一些學(xué)者們的演講，他們提到可以用手機(jī)拍下一個(gè)植物的圖片，傳回服務(wù)器，在大量植物圖片庫(kù)中檢索，找到最相似的植物，并給出植物的名稱(chēng)，特點(diǎn)等。哈哈，這對(duì)于我這個(gè)五谷不分的人來(lái)說(shuō)實(shí)在是太有幫助了，可見(jiàn)對(duì)于一項(xiàng)技術(shù)是否有用實(shí)在要仔細(xì)思考，不要早下斷言。

技術(shù)和市場(chǎng)是一個(gè)互動(dòng)的關(guān)系，有人認(rèn)為技術(shù)嚴(yán)格地從用戶(hù)的現(xiàn)實(shí)需求出發(fā)，這個(gè)觀(guān)點(diǎn)總的來(lái)說(shuō)沒(méi)有錯(cuò)，但是忽視了技術(shù)創(chuàng)造需求的一面。大多數(shù)用戶(hù)往往并不了解技術(shù)發(fā)展到了什么程度，他們提不出需求來(lái)，這時(shí)技術(shù)專(zhuān)家們需要把技術(shù)和產(chǎn)品做出來(lái)給人們看，刺激、引領(lǐng)用戶(hù)的需求，比如數(shù)碼相機(jī)，5年前我想大多數(shù)用戶(hù)和我一樣并沒(méi)有淘汰膠卷相機(jī)的強(qiáng)烈要求，但當(dāng)數(shù)碼相機(jī)進(jìn)入市場(chǎng)后，人人都意識(shí)到：原來(lái)我需要這個(gè)東東。

在市場(chǎng)與技術(shù)的互動(dòng)中，總的來(lái)說(shuō)，還是市場(chǎng)在引導(dǎo)和拉動(dòng)技術(shù)的發(fā)展。市場(chǎng)需要的是產(chǎn)品，產(chǎn)品往往集成了多項(xiàng)技術(shù)，因此一項(xiàng)被市場(chǎng)接受的產(chǎn)品能夠推動(dòng)多項(xiàng)技術(shù)的進(jìn)步。比如搜索引擎，它拉動(dòng)了自然語(yǔ)言處理、并行計(jì)算、海量存儲(chǔ)設(shè)備、數(shù)據(jù)挖掘等等多項(xiàng)技術(shù)的發(fā)展。最近中國(guó)計(jì)算機(jī)學(xué)會(huì)設(shè)立了王選獎(jiǎng)，在中國(guó)真正有市場(chǎng)眼光，能夠發(fā)明一項(xiàng)技術(shù)，拉動(dòng)一個(gè)行業(yè)的計(jì)算機(jī)專(zhuān)家，王選是第一人。怎樣根據(jù)市場(chǎng)選擇研究方向，設(shè)計(jì)產(chǎn)品，調(diào)整技術(shù)形態(tài)，我在后面還有詳細(xì)闡述。

科學(xué)技術(shù)的力量是巨大的，愛(ài)因斯坦給出的公式E=M*C2，C是光速啊，質(zhì)量乘以光速的平方，這是多么巨大的能量啊，愛(ài)因斯坦的理論直接導(dǎo)致了原子能的利用與開(kāi)發(fā)。基因圖譜的發(fā)現(xiàn)以及后基因組時(shí)代對(duì)基因圖譜的深入分析必將為人類(lèi)征服疾病提供一條嶄新的解決道路，通過(guò)對(duì)損壞的基因進(jìn)行修復(fù)，將使無(wú)數(shù)患者得以康復(fù)，無(wú)數(shù)家庭重拾幸福。互聯(lián)網(wǎng)的發(fā)明，把全世界連為一體，過(guò)不了多久，石頭里也會(huì)嵌入芯片，在這個(gè)世界上有生命的、無(wú)生命的各種物質(zhì)之間都可能進(jìn)行通訊，人們的生活面貌已經(jīng)徹底改變了。

當(dāng)然，科學(xué)也是雙刃劍：原子彈爆炸了，核戰(zhàn)爭(zhēng)始終威脅著人類(lèi)；在對(duì)基因組這套上帝給出生命密碼沒(méi)有全面理解以前，任何盲動(dòng)都可能導(dǎo)致基因污染，以至于玩火自焚；互聯(lián)網(wǎng)上的虛擬生存讓人們感到更加孤獨(dú)。

研究是分層次的，很多大科學(xué)家在晚年登上了最高層，比如錢(qián)學(xué)森在80年代倡導(dǎo)思維科學(xué)，他對(duì)整個(gè)科學(xué)技術(shù)體系進(jìn)行了重新分類(lèi)。在中國(guó)的大學(xué)里，分為一級(jí)學(xué)科，二級(jí)學(xué)科等，我就處在計(jì)算機(jī)科學(xué)技術(shù)一級(jí)學(xué)科下面的計(jì)算機(jī)應(yīng)用技術(shù)二級(jí)學(xué)科下。二級(jí)學(xué)科的帶頭人稱(chēng)為學(xué)科帶頭人，二級(jí)學(xué)科下面一個(gè)研究方向的帶頭人稱(chēng)為學(xué)術(shù)帶頭人，我就被指定為學(xué)術(shù)帶頭人。

我的研究方向是信息檢索，信息檢索下面又有子方向，比如文本檢索、文本挖掘、跨語(yǔ)言檢索、跨媒體檢索等，子方向下面設(shè)立具體的科研課題，比如文本挖掘中的多文檔自動(dòng)文摘課題，針對(duì)一項(xiàng)課題又有不同的解決辦法，基于事件抽取與集成的多文檔文摘就是利用一種具體的解決問(wèn)題的方法。

總結(jié)來(lái)說(shuō)，就是6個(gè)層級(jí)：
A. 一級(jí)學(xué)科
B. 二級(jí)學(xué)科
C. 研究方向
D. 子方向
E. 課題
F. 基于某種方法對(duì)課題進(jìn)行的具體研究

君子思不出其位，我是學(xué)術(shù)帶頭人，因此主要在思考C類(lèi)的問(wèn)題，也就是和信息檢索相關(guān)的問(wèn)題。一個(gè)學(xué)院的院長(zhǎng)通常會(huì)思考A類(lèi)的課題，學(xué)科帶頭人或者說(shuō)是一個(gè)博士點(diǎn)的點(diǎn)長(zhǎng)是要考慮B類(lèi)問(wèn)題的。一個(gè)人對(duì)相關(guān)的方向或?qū)W科有所了解，對(duì)自己的研究工作是很有好處的，只有看清了整體的學(xué)科面貌，才能知道自己處在那個(gè)位置上，自己未來(lái)的方向在哪里。我在讀博士以及在微軟做副研究員的時(shí)候，只看到E類(lèi)問(wèn)題，想到最多的是F類(lèi)問(wèn)題，因此你讓我提一個(gè)新方向，讓我對(duì)一項(xiàng)技術(shù)進(jìn)行預(yù)測(cè)，我茫然無(wú)知。后來(lái)?yè)?dān)任院長(zhǎng)助理，負(fù)責(zé)學(xué)院的成果轉(zhuǎn)化，需要了解學(xué)院里各個(gè)方向的發(fā)展?fàn)顟B(tài)，使我的視野開(kāi)闊了一些。盡管我凡事不求甚解，但是喜歡總結(jié)歸納，因此對(duì)信息檢索與其它學(xué)科的關(guān)系有了更多地認(rèn)識(shí)，這對(duì)后來(lái)的選題很有幫助，特別是在應(yīng)用研究方面，心里比較有底。

學(xué)科好比一棵大樹(shù)的樹(shù)根，研究方向如同樹(shù)干，具體的課題就是枝葉了。和學(xué)科中各個(gè)方向都相關(guān)的研究課題是最基礎(chǔ)的研究課題，比如在人工智能中，各類(lèi)機(jī)器學(xué)習(xí)算法是圖像識(shí)別、語(yǔ)音識(shí)別和語(yǔ)言理解等各個(gè)方向都離不開(kāi)的，機(jī)器學(xué)習(xí)技術(shù)提高一步，好比樹(shù)根抬高了一寸，各項(xiàng)應(yīng)用技術(shù)也都跟著進(jìn)步，因此越是基礎(chǔ)的研究，越會(huì)對(duì)業(yè)界產(chǎn)生較大較深遠(yuǎn)的影響力。不過(guò)，基礎(chǔ)研究的突破比較難，而在某個(gè)應(yīng)用課題上不考慮一般情況，只考慮具體需要，成功的可能性大。枝葉上的課題做多了，經(jīng)過(guò)合并同類(lèi)項(xiàng)，就會(huì)發(fā)現(xiàn)比較共性的基礎(chǔ)課題，比如我們?cè)谧鰡?wèn)答系統(tǒng)、多文檔文摘、例句檢索等課題時(shí)發(fā)現(xiàn)復(fù)述(paraphrasing)是一個(gè)共性的問(wèn)題，于是把復(fù)述單拿出來(lái)展開(kāi)專(zhuān)門(mén)的研究，如此，可以越做越深。

研究有層次，學(xué)者也有層次，大致可以分為：
A. 大家（劍客）：提出問(wèn)題
B. 專(zhuān)家（俠客）：解決問(wèn)題
C. 學(xué)徒：修修補(bǔ)補(bǔ)
D. 抄襲者：抄來(lái)抄去
E. 搞偽科學(xué)的人：弄虛作假

A類(lèi)是大家，站得高，看得遠(yuǎn)，他們往往能夠前瞻性地提出某個(gè)學(xué)科領(lǐng)域中的若干重大問(wèn)題，最著名的是希爾伯特的23個(gè)問(wèn)題，對(duì)數(shù)學(xué)界影響深遠(yuǎn)。提出問(wèn)題其實(shí)也是解決問(wèn)題的一種方式，只不過(guò)他們是在很高的層面解決問(wèn)題，類(lèi)似一個(gè)軟件系統(tǒng)分析員，他把一個(gè)復(fù)雜的工程問(wèn)題分解為若干個(gè)有機(jī)聯(lián)系的子問(wèn)題，然后宣布只要這幾個(gè)子問(wèn)題解決了，整個(gè)大問(wèn)題也就解決了。至于這幾個(gè)子問(wèn)題到底怎樣解決，或者說(shuō)相應(yīng)的子系統(tǒng)到底怎樣開(kāi)發(fā)，他就不管了。胡亂地提問(wèn)題并不難，小孩子也會(huì)向大人提出各種各樣有趣的問(wèn)題，有的大人也答不出來(lái)，問(wèn)題的關(guān)鍵在于在適當(dāng)?shù)臅r(shí)候提出適合當(dāng)前學(xué)術(shù)發(fā)展階段的關(guān)鍵性課題，這絕對(duì)不是一般人能夠做到的，這是需要具有對(duì)整個(gè)領(lǐng)域全面深入的理解才行的。

B類(lèi)是專(zhuān)家，是在某個(gè)研究方向上有專(zhuān)長(zhǎng)的人，他們沿著大家指出的方向探索前進(jìn)，提出全新的方法體系來(lái)解決問(wèn)題。比如在機(jī)器翻譯領(lǐng)域中，日本長(zhǎng)尾真教授提出了基于實(shí)例的機(jī)器翻譯方法，從一個(gè)全新的視角看待機(jī)器翻譯問(wèn)題。專(zhuān)家經(jīng)驗(yàn)豐富，能夠自由地駕馭課題，穩(wěn)步地推動(dòng)課題的進(jìn)展。

C類(lèi)是學(xué)徒，就是我們這些普通的研究人員了，這部分人的注意力在具體的課題上。學(xué)徒們還沒(méi)有宏大的視野，沒(méi)有捕捉全局戰(zhàn)略要點(diǎn)的本事，也還沒(méi)有在一個(gè)研究方向上提出原創(chuàng)性的解決之道，他們跟在拓荒者后面撿拾麥穗，他們負(fù)責(zé)對(duì)科學(xué)大廈修修補(bǔ)補(bǔ)。他們一會(huì)兒聽(tīng)說(shuō)了一個(gè)新的機(jī)器學(xué)習(xí)方法，趕緊在自己的課題上試一下；一會(huì)兒發(fā)現(xiàn)了一個(gè)以前忽略了的新的特征，立即想方設(shè)法把這個(gè)特征提取出來(lái)；一會(huì)兒為了參加一個(gè)技術(shù)評(píng)測(cè)，耐心地調(diào)一調(diào)系統(tǒng)參數(shù)；一會(huì)兒為了發(fā)表一篇論文構(gòu)造出一個(gè)試驗(yàn)來(lái)。我們每天的研究活動(dòng)差不多都是在這樣進(jìn)行的，很多時(shí)候在原地打轉(zhuǎn)轉(zhuǎn)。

我這樣描述學(xué)徒們的工作情景絲毫沒(méi)有貶低的意味，在達(dá)到專(zhuān)家的水平，證悟研究真諦以前，跌跌撞撞、渾渾沌沌是在所難免的。只要遵守誠(chéng)信之道，不抄襲，不造假，點(diǎn)點(diǎn)滴滴的貢獻(xiàn)對(duì)科學(xué)界也是有幫助的。從更高的要求看，學(xué)徒的目標(biāo)應(yīng)該是成為專(zhuān)家，應(yīng)該時(shí)常靜下心來(lái)想一想，自己的工作是否有價(jià)值，是否有新意，揣摩一下大家們、專(zhuān)家們到底是怎樣思考問(wèn)題的，在不斷地反思與實(shí)踐中向上邁進(jìn)。

D類(lèi)學(xué)者根本算不上學(xué)者，他們?yōu)榱嗽u(píng)職稱(chēng)等目的，對(duì)別人的論文進(jìn)行抄襲拼湊，他們是思想的竊賊，對(duì)學(xué)術(shù)界毫無(wú)貢獻(xiàn)可言。

E類(lèi)學(xué)者不僅僅是做賊了，他編造偽科學(xué)，毀壞科學(xué)界在公眾中的形象，他們是科學(xué)界的公敵。

以上的分類(lèi)也只是為了討論的方便，在各類(lèi)之間并沒(méi)有明確的界限，我只是依次談出我心中做學(xué)問(wèn)的境界而已。

在人類(lèi)已知的世界和未知的世界之間有一條動(dòng)態(tài)邊界，科學(xué)家就站在這條邊界上，他們是挑戰(zhàn)未知世界的勇士，他們每向前邁出一步，就意味著整個(gè)人類(lèi)的已知世界向前拓展了一步，由此足見(jiàn)科學(xué)工作的艱難和科學(xué)家的偉大。

研究又好比爬山，一座座山峰如同一個(gè)個(gè)研究領(lǐng)域，大家已登峰造極，一覽眾山小，把東南西北各條山路上的溝溝坎坎，把此山與他山之間的距離關(guān)系看得清清楚楚。隔行如隔山，隔行不隔道，在一個(gè)領(lǐng)域做到頂尖的學(xué)者已入化境，一通百通，你把另一個(gè)領(lǐng)域的問(wèn)題講給他聽(tīng)，他往往也能夠很快地抓到要害。專(zhuān)家已到半山腰，看不到山的全貌，但是他找到了一條通往山頂?shù)牡缆罚⒁徊揭徊降叵蛏吓实侵W(xué)徒還沒(méi)有進(jìn)入山門(mén)，他們一會(huì)兒仰望山頂，一會(huì)兒看看山腰，在山腳下繞來(lái)繞去找不到門(mén)徑，費(fèi)力不少，卻并沒(méi)有縮短與山頂?shù)木嚯x。

前文曾提到科學(xué)研究的層次，并分了6個(gè)層級(jí)。此處所說(shuō)的選題指的是從C到E三個(gè)層次上的選擇問(wèn)題，即：C. 研究方向、D. 子方向、E. 課題。選擇研究方向是實(shí)驗(yàn)室(Lab)主任們需要重點(diǎn)思考的事情，選擇子方向是研究小組(Group)的組長(zhǎng)們需要重點(diǎn)思考的事情，選擇課題是研究生們需要重點(diǎn)思考的事情。

選擇太多，很容易讓人困惑，要想理出一個(gè)頭緒來(lái)，需要一些基本的原則。微軟的許峰雄來(lái)訪(fǎng)時(shí)談到了他選擇課題的三個(gè)標(biāo)準(zhǔn)：有足夠的興趣，能成為世界第一，能賺錢(qián)。（！）興趣，這個(gè)原則是非常重要的，我贊同，獲得國(guó)家最高科技獎(jiǎng)的"黃土之父"劉東生院士是搞地球環(huán)境科學(xué)的，經(jīng)常在野外作業(yè)，按常人推斷，這該是多么枯燥艱苦的工作啊，但他說(shuō)："枯燥？不！因?yàn)榻?jīng)常有新發(fā)現(xiàn)，其中的樂(lè)趣難以形容"。我堅(jiān)信任何一個(gè)成功的科學(xué)家的直接工作動(dòng)源都是興趣，而不是意志。（2）成為世界第一，不容易，但是應(yīng)該作為一種判斷標(biāo)準(zhǔn)，如果某個(gè)領(lǐng)域已經(jīng)非常成熟，很難有什么創(chuàng)新了，或者大牛云集，已經(jīng)打破頭了，則應(yīng)該有所回避。（3）賺錢(qián)，許峰雄是在工業(yè)研究院中工作，比較注重實(shí)用，因此他強(qiáng)調(diào)了"賺錢(qián)"，我是在工科大學(xué)里工作，也比較偏重應(yīng)用，因此是贊同"能賺錢(qián)"這個(gè)標(biāo)準(zhǔn)的。不過(guò)，"能賺錢(qián)"不等于立即賺錢(qián)，5年、10年，20年后能夠賺錢(qián)的研究課題都是值得關(guān)注的。

談?wù)勎疫x擇課題的一些體會(huì)：
1、要有實(shí)際需求
一個(gè)課題必須有實(shí)際需求，可能是現(xiàn)實(shí)的需求，也可能是潛在的需求；可能是直接的需求，也可能是間接的需求，總之是的的確確被人們所需要的。據(jù)個(gè)反例，比如自動(dòng)文摘，自動(dòng)文摘是我的博士論文課題，但是實(shí)際應(yīng)用需求始終不清楚，自動(dòng)文摘的結(jié)果用于編輯出版，質(zhì)量肯定無(wú)法保證，用于幫助人們快速瀏覽資料吧， Google提供的包含查詢(xún)?cè)~的簡(jiǎn)單的Snippet就起到了這個(gè)作用，因此，至今基于全文分析的單文檔自動(dòng)文摘到底用到哪里，仍然不清楚，這方面的研究已經(jīng)有50多年的歷史了，仍然是不死不活，總是找不到應(yīng)用就無(wú)法得到政府和企業(yè)界的持續(xù)性支持，以往的付出成為雞肋。我覺(jué)得單自動(dòng)文摘不是一個(gè)好課題，目前階段多文檔文摘，或者說(shuō)對(duì)某個(gè)題目的自動(dòng)綜述分析是非常好的題目。

2、有較大的未知空間
以手寫(xiě)體漢字識(shí)別為例，市場(chǎng)上已經(jīng)大面積應(yīng)用了，在研究上就不宜再展開(kāi)。

3、與自己以往的工作有關(guān)聯(lián)
如果你覺(jué)得自己的研究領(lǐng)域太窄，或者競(jìng)爭(zhēng)對(duì)手太多，或者自己缺乏興趣，則可以適當(dāng)擴(kuò)展研究方向，但最好是相關(guān)性地?cái)U(kuò)展，比如從自然語(yǔ)言處理(NLP)擴(kuò)展到信息檢索(IR)，IR要用到NLP的技術(shù)，這種擴(kuò)展是從底層技術(shù)到應(yīng)用系統(tǒng)的擴(kuò)展，很自然。再比如從圖片檢索擴(kuò)展到視頻檢索，只是處理對(duì)象有變化，很多原有的技術(shù)優(yōu)勢(shì)仍然能夠發(fā)揮。如果跳躍性太大，比如搞NLP，忽然發(fā)現(xiàn)做數(shù)據(jù)挖掘有前途，于是單純地轉(zhuǎn)向數(shù)據(jù)庫(kù)中數(shù)據(jù)挖掘，和文本處理完全脫節(jié)，這種做法一方面無(wú)法發(fā)揮既有的技術(shù)積累，另一方面也讓同行感覺(jué)你不夠?qū)Ｗⅲ蝗菀椎玫秸J(rèn)可。最要命的是有的人根本就沒(méi)有自己的方向，什么課題都敢接，這樣的人可以一時(shí)間讓人覺(jué)得風(fēng)風(fēng)火火，經(jīng)費(fèi)也很充足，但過(guò)不了多久就會(huì)摔落下去，因?yàn)槿狈Ψe累，學(xué)術(shù)形象不清，公雞下蛋，干了自己不擅長(zhǎng)的事情，在學(xué)術(shù)圈還怎么混？

4、有可能得到國(guó)家的支持
對(duì)于資深學(xué)者，他選定一個(gè)課題后，可以寫(xiě)出立項(xiàng)建議，去說(shuō)服政府或軍方支持他的工作，從而填補(bǔ)國(guó)家空白，成為國(guó)內(nèi)這個(gè)方向的先驅(qū)。哈工大的楊孝宗老師借鑒 CMU在wearable computing方面的研究成果，在國(guó)內(nèi)率先提出穿戴計(jì)算機(jī)的概念，堅(jiān)持多年，就獲得了軍方的認(rèn)可。對(duì)于剛出道的年輕人，無(wú)力直接影響政府，那只有自己預(yù)先判定一個(gè)幾年后可能成為熱點(diǎn)的方向，先走一步，做出一些成績(jī)來(lái)，等到大氣候適宜的時(shí)候，由于他已經(jīng)取得了一定的成果，也有可能被認(rèn)可為這個(gè)領(lǐng)域的先行者，得到國(guó)家的支持。

對(duì)一個(gè)課題的類(lèi)型要有一個(gè)判斷，是研究型的還是開(kāi)發(fā)型的，如果是研究型的，要組織博士生們來(lái)攻關(guān)，鼓勵(lì)大家大膽嘗試，提出創(chuàng)見(jiàn)；如果是開(kāi)發(fā)型的，要更多地召集碩士生們來(lái)做，強(qiáng)調(diào)利用一切現(xiàn)有的技術(shù)手段把技術(shù)或系統(tǒng)做到實(shí)用可靠。這兩者要分的比較清楚，既不能通過(guò)各種打補(bǔ)丁的方法，或者說(shuō)一大堆小技巧來(lái)對(duì)付研究型的課題，因?yàn)槟菢邮亲霾怀鐾黄菩赃M(jìn)展的，也不能在開(kāi)發(fā)類(lèi)課題上總是異想天開(kāi)，嘗試還很不成熟的技術(shù)。

如果是研究型課題，還要區(qū)別是基礎(chǔ)研究還是應(yīng)用研究，基礎(chǔ)研究的結(jié)果不能直接被用戶(hù)使用，類(lèi)似重工業(yè)，應(yīng)用研究的結(jié)果最終用戶(hù)直接就能夠用上，類(lèi)似輕工業(yè)。對(duì)于基礎(chǔ)研究，可以?huà)侀_(kāi)具體應(yīng)用的約束，專(zhuān)注于一些科學(xué)原理技術(shù)原理的突破。對(duì)于應(yīng)用研究，則需要考慮用戶(hù)的需求。

課題還有長(zhǎng)期(long term)和短期(short term)之分，長(zhǎng)期研究的課題往往難度大，研究結(jié)果難以預(yù)料，短期項(xiàng)目則比較好預(yù)測(cè)，可以速戰(zhàn)速?zèng)Q。

在一個(gè)具體的題目上作研究，應(yīng)該遵從怎樣的程序呢？我覺(jué)得可以概括為"螺旋式深入"，也就是在"閱讀"，"思考"，"實(shí)驗(yàn)"，"寫(xiě)作"，再閱讀。。。這四個(gè)階段的時(shí)間分配可以根據(jù)實(shí)際情況靈活調(diào)整，剛進(jìn)入課題的研究生閱讀調(diào)研花費(fèi)的時(shí)間要多一些，而在一個(gè)課題上已經(jīng)開(kāi)展了一兩年工作的人則可能增量式地閱讀資料，閱讀時(shí)間自然比起步時(shí)少一些。專(zhuān)門(mén)用于思考、設(shè)計(jì)、推演的時(shí)間可能并不多，但思考是滲透在其它三個(gè)階段中不斷進(jìn)行的，因此總的思考時(shí)間并不少。實(shí)驗(yàn)中編程的時(shí)間應(yīng)該盡可能短，用更多的時(shí)間進(jìn)行實(shí)驗(yàn)數(shù)據(jù)的分析。寫(xiě)作是常常被中國(guó)的研究生忽略的環(huán)節(jié)，寫(xiě)作的時(shí)間要足夠長(zhǎng)。收集資料，了解別人的工作，找出問(wèn)題所在，針對(duì)性地提出自己的創(chuàng)意，用實(shí)驗(yàn)驗(yàn)證自己創(chuàng)意的正確性，總結(jié)歸納，撰寫(xiě)論文，發(fā)現(xiàn)新的問(wèn)題，再收集資料，如此反復(fù)，這是研究活動(dòng)的大致流程。

收集資料、閱讀資料是從事研究工作的第一步，但是如何收集、閱讀資料卻很有學(xué)問(wèn)，初學(xué)者如果沒(méi)有得到足夠的指導(dǎo)，常常走很多彎路。

1、閱讀重要的論文
目前互聯(lián)網(wǎng)上的信息量太大了，對(duì)每一條信息的重要性、可靠性的判斷是一個(gè)人采集信息的關(guān)鍵環(huán)節(jié)。如果判斷一篇論文是否重要呢？GoogleScholar給出的引用數(shù)是一個(gè)有效指標(biāo)，很多學(xué)者都引用的文章往往就是有價(jià)值的論文。有的同學(xué)覺(jué)得看中文論文容易，于是把自己能夠查到的中文論文一網(wǎng)打盡，反復(fù)閱讀，但是很多發(fā)表在三流刊物上為了評(píng)職晉級(jí)而炮制的論文完全沒(méi)有閱讀的價(jià)值，白白耽誤了時(shí)間。即使是英文論文，國(guó)外一樣有濫竽充數(shù)的文章，這樣的論文引用數(shù)肯定低，用引用數(shù)可能很容易地把這樣的論文淘汰掉。

計(jì)算機(jī)領(lǐng)域的頂級(jí)會(huì)議論文非常重要，在NLP領(lǐng)域有ACL，在IR領(lǐng)域有SIGIR，在機(jī)器翻譯領(lǐng)域有MT Summit，這些頂級(jí)會(huì)議的論文質(zhì)量很高，內(nèi)容很新，應(yīng)該高度關(guān)注。期刊上的論文是一個(gè)作者或機(jī)構(gòu)一個(gè)階段的研究成果的總結(jié)，通常質(zhì)量較高，但由于審稿及編輯出版的周期很長(zhǎng)，因此內(nèi)容不夠新，適當(dāng)關(guān)注即可。NLP領(lǐng)域的CL，機(jī)器翻譯中的MT，信息檢索領(lǐng)域的IP&M和JASIST等都是很好的期刊。進(jìn)入一個(gè)領(lǐng)域，必須立即了解該領(lǐng)域有哪些頂級(jí)的國(guó)際會(huì)議和國(guó)際期刊。

2、以作者為線(xiàn)索理清脈絡(luò)
閱讀論文一定要注意論文的作者是誰(shuí)，研究機(jī)構(gòu)是哪里，以作者為線(xiàn)索理一理就會(huì)發(fā)現(xiàn)全世界搞你這個(gè)方向的也就那么幾個(gè)、十幾個(gè)研究機(jī)構(gòu)、研究者，以后就跟蹤這些人的研究工作即可，還能夠發(fā)現(xiàn)該作者的研究工作的演進(jìn)脈絡(luò)。如果拿到一篇文章就讀，讀完了也不知道作者是誰(shuí)，時(shí)間長(zhǎng)了，就會(huì)感到暈頭暈?zāi)X，不知道從哪個(gè)期刊或會(huì)議上就會(huì)冒出一篇相關(guān)文章來(lái)，讓你防不勝防。

3、閱讀最新的論文
學(xué)術(shù)發(fā)展很快，要集中盡力閱讀近5年，特別是近3年的論文，對(duì)于5年前的論文，只看引用率最高的經(jīng)典文章即可。

讀完一篇論文必須了解哪些關(guān)鍵內(nèi)容呢？我覺(jué)得應(yīng)該包括以下方面：作者為什么要做這項(xiàng)工作？要解決的是一個(gè)什么問(wèn)題？作者在解決問(wèn)題時(shí)遇到了怎樣的困難？為了解決他的困難他提出了什么樣的解決辦法？試驗(yàn)結(jié)果是否可能真的證明他的方法好，數(shù)據(jù)是否充分，有沒(méi)有和別人的工作，別的方法進(jìn)行對(duì)比？你認(rèn)為他的方法是否新穎，你從中學(xué)到了什么？該方法有哪些不足，你是否立即有了新的改進(jìn)方案？如果有立即記錄下來(lái)。帶著上述問(wèn)題，抓住要點(diǎn)，做好記錄，一篇長(zhǎng)文就會(huì)像庖丁解牛一樣轟然倒下。

真理越辯越明，我們讀的是一篇學(xué)術(shù)論文，不是《圣經(jīng)》，不能帶著崇敬的心理去閱讀，要像一個(gè)審稿人那樣帶著批判挑剔的心理閱讀論文，在閱讀中不斷地找出論文中的問(wèn)題，選題上的，方法上的，實(shí)驗(yàn)上的，表述上的，并不斷地通過(guò)積極獨(dú)立的思考給出自己認(rèn)為見(jiàn)解。只有這樣，資料才能夠?yàn)槟闼茫粫?huì)成為你的包袱。有的同學(xué)讀資料，越讀越喪失信心，發(fā)現(xiàn)別人做得太好了，自己的想法都被別人做完了，資料全讀完了，自己也準(zhǔn)備換課題了，這是失敗的讀法。

中國(guó)的研究生要有信心，不要被國(guó)外所謂的名家嚇住。中國(guó)的科研水平在快速提高，科研人員的素質(zhì)也在快速提高。一位美籍華裔企業(yè)家在一篇文章中寫(xiě)道："可不幸的是，除了很少頂尖學(xué)校的博士外，大部分博士所做的研究課題都是陳舊或者沒(méi)有意義的。"不知道頂尖高校的含義是什么，但是我覺(jué)得我們的研究生要對(duì)自己的國(guó)家有信心，對(duì)自己的學(xué)校有信心，對(duì)自己的倒是有信心，對(duì)自己有信心。只要我們掌握正確的研究方法，廣泛閱讀國(guó)外最新的研究成果，大膽嘗試自己人為正確的方法，充分釋放我們的聰明才智，我們就絲毫不用對(duì)國(guó)外的研究工作頂禮膜拜。在科學(xué)研究上，歐美人從內(nèi)心里是瞧不起我們亞洲人，我們中國(guó)人的，以至于歐美歸來(lái)的學(xué)者們也以歐美為樣板來(lái)評(píng)估我們教育科研體制，只要和美國(guó)不一樣就是大錯(cuò)特錯(cuò)了，中國(guó)高校的教師們都是在誤人子弟。我奉勸每一位研究生建立不崇拜權(quán)威，不崇拜歐美，只服從真理的獨(dú)立思維模式，大膽質(zhì)疑大膽批判，只有這樣才能不死于他人之言下，才能有活脫脫的自己。

常用鏈接

留言簿

隨筆檔案

搜索

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

Windows7&IIS7.5部署Discuz全攻略

準(zhǔn)備工作

安裝PHP

配置IIS

安裝MySQL

安裝Discuz

Python正則

Python讀寫(xiě)文件

事由

C++真的比C差嗎？

C++的坑有多少？

C++的初衷

我對(duì)C++的感情

C++的未來(lái)

總結(jié)

用十年來(lái)學(xué)編程
Peter Norvig

為什么每個(gè)人都急不可耐？

10年學(xué)編程

怎樣做研究（一）

常用鏈接

留言簿

隨筆檔案

搜索

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

Windows7&IIS7.5部署Discuz全攻略

準(zhǔn)備工作

安裝PHP

配置IIS

安裝MySQL

安裝Discuz

Python正則

Python讀寫(xiě)文件

事由

C++真的比C差嗎？

C++的坑有多少？

C++的初衷

我對(duì)C++的感情

C++的未來(lái)

總結(jié)

用十年來(lái)學(xué)編程Peter Norvig

為什么每個(gè)人都急不可耐？

10年學(xué)編程

怎樣做研究（一）

用十年來(lái)學(xué)編程
Peter Norvig