1.引言:認知科學與語言學


    認知科學的發(fā)展日新月異。從上世紀五十年代到今天雖然只有短短的幾十年,科學家們對人腦的構造及 功能已經(jīng)有了比較深入的認識。語言學在這個認識過程中起了十分重要的作用。特別是心理語言學,由于它跨學科的特征,使我們能通過對人們使用語言和學習語言 的心理機制來透視人腦處理信息的普遍特征。本文擬從語言習得的角度來探討目前風靡一時的聯(lián)結主義模式(connectionist models)(注:Connectionism又稱為neural networks(神經(jīng)網(wǎng)絡),國內(nèi)有學者譯作“連接主義”。但筆者認為“聯(lián)結主義”能夠更好地反映這個理論的特征。),并以此討論認知科學及語言學的一 般性問題。

    從上世紀五十年代末期到今天,Chomsky的理論一直在語言學中占主導地位。Chomsky對傳統(tǒng)的語言學理論提出了挑戰(zhàn), 認為語言知識從根本上是一種心理機制,而這種機制的根本又是形式語法系統(tǒng)。也就是說,人腦是通過一個內(nèi)存的規(guī)則系統(tǒng)(形式語法)來反映語言的。過去幾十年 中,Chomsky不斷更新他對形式語法系統(tǒng)的描述,從原有的“轉(zhuǎn)換生成語法”到今天的“最簡方案”,雖然其間有不少變化,但不離其對規(guī)則的基本訴求。心 理學家和心理語言學家們同樣對規(guī)則系統(tǒng)深信不疑,認為只有規(guī)則系統(tǒng)才能夠有效地反映人腦的高級抽象活動。這種認識乃是基于認知科學家的一個基本假設:人腦 是處理符號系統(tǒng)(symbol system)的機器(Newell 1980)。這個假設對認知科學起了很大的影響:一旦我們將人腦當作符號系統(tǒng),我們就可以很方便地描述這個機器對符號加工與處理的方式。從某個角度來看, 我們可以拿這部機器與計算機作比較:描述人腦的過程跟描述計算機的軟件操作過程一樣。

    這種將人腦看作符號系統(tǒng)的觀點與心理學的模塊理論 (modular theory)有著密不可分的關系。18世紀Franz Gall提出了模塊理論的最初假設。但那時的假設強調(diào)人的性格特征與腦骨骼的外型特征的關系,因而缺乏科學根據(jù)。現(xiàn)代心理學對模塊理論表述最完備的莫過于 Jerry Fodor(1983)。Fodor認為人腦的認知系統(tǒng)是由許許多多的模塊組成的。這些模塊有的負責語法、有的負責視覺、有的負責聽覺,任務專一 (domain-specific),互相獨立(autonomous)。對于心理語言學來說,最重要的是這些模塊在語言的加工過程中不能同時互動 (parallel interaction)。例如,當你聽到“小明和小張在切蛋糕”這句話時,模塊理論假設,我們是由語音系統(tǒng)開始,然后對詞匯,再對語法,最后對語義進行 加工。這是由低層到高層的一個過程(bottom-up process),次序嚴謹,不能打亂。再者,在對語法加工的同時,語音和語義都不能起作用:每一層面的信息都是自給自足的 (informationally encapsulated)。模塊理論的線性次序,及其分明的層次,對認知科學家具有極強的吸引力。但是,近十幾年來它也受到了強烈的挑戰(zhàn)。對模塊理論及 其在大腦中的表征,讀者可參看Uttal(2001)較系統(tǒng)的闡述及批判。對其挑戰(zhàn)的主要理論當屬聯(lián)結主義了。

    我們知道,符號系統(tǒng)的觀點 及模塊理論的假設是建立在將人腦比作電腦的基礎之上的。這種比擬的優(yōu)點是,我們能夠有效地討論人腦在信息處理時的操作過程及加工特征(如線性次序,模塊結 構,加工流程圖等等)。但它最大的缺點是難以在生物及神經(jīng)學上找到對應的關系(neurally implausible)。人腦內(nèi)有上千億神經(jīng)元,而且這些神經(jīng)元之間的聯(lián)結關系比起電腦中幾百或上千的電極管要復雜得多。還有,電極管每秒可以進行幾百 萬或幾千萬次運算,而神經(jīng)元每秒則只可以發(fā)送或接收幾百次電子化學的脈沖。因此,如果人腦是按線性次序來操作,每秒不過能計算一百次左右(100- step rule,Feldman and Ballard1982)。顯而易見,每秒一百個操作步驟是不能夠完成復雜的認知過程的。例如,詞語的加工過程至少精確到十分之一秒。最后,數(shù)字電腦只能 接收單一的、清楚的符號信號(all or none),沒有所謂的中介狀態(tài)(partial status)。這與人腦的靈活性及可塑性有極大的差別。所有這些原因都給聯(lián)結主義的觀點鋪下了基石。

    聯(lián)結主義的一些初期理論就已經(jīng)與模 塊理論的基本假設針鋒相對了。最著名的要算“互動激活”(interactive activation)理論。Rumelhart和McClelland(1981)提出了互動激活的基本假說。根據(jù)這個假說,語言加工的過程既包含從下 至上的過程(bottom-up process),也包含從上至下的過程(top-down process)。與模塊理論的假說相反,這兩種過程可以在同一時間互動。舉例來說,當你聽到“小明和小張在切蛋糕”這句話時,既可有語音至詞匯至語法至 語義的過程,也可以有語境的作用由上至下幫助聽者理解語義、語法、詞匯及語音。這兩種過程可以從聽者對在噪音的干擾下仍能完整地理解句子的情況中看出來。 如果“蛋糕”的“糕”字突然受到干擾(例如在電話交談中),聽者的理解系統(tǒng)可以自動修補并添加“糕”的字音。Rumelhart和McClelland還 舉例說明,如果英文字母R或K的右上角被遮蓋(類似h),讀者可以根據(jù)詞的周圍語境(WOR-)自動修補,達到理解K而不是R。這種語境效應或詞優(yōu)效應 (word-superiority effect)對互動激活的理論提供了有力的支持。


2.聯(lián)結主義的基本特征


    互 動激活的假說給聯(lián)結主義用于語言分析中打下了基礎。但嚴格地說,它還不能算是聯(lián)結主義的模型。按照Rumelhart,McClelland,和PDP (parallel distributed processing)Group(1986)的PDP理論,聯(lián)結主義有以下兩個基本特征。首先,在知識的表征(representation)方面,它 強調(diào)“分布表征”(distributed representation)。分布表征與傳統(tǒng)認知理論對知識的表征有很大的不同。上面我們提到,傳統(tǒng)認知理論將人腦看作是符號處理系統(tǒng),因而它采用的 是“方位表征”法(localist representation)。這種表征的基本特點是一個信息加工的單位(或單元)只表達一個概念(例如語素、字或詞),而一個概念也只由一個單位來表 達。這樣,表達單位不能進一步分解為更小的單位,因為它與概念間有清楚的一對一的關系。分布表征與此不同:它強調(diào)一個概念由多個單元互相作用的關系來表 達。例如,英文大寫字母F和E之間的不同在于后者多了一橫。照方位表征法,F(xiàn)和E是分別由兩個不同的單元來表達的。照分布表征法,F(xiàn)和E可以由多個同樣的 單元來表達,所不同的某些單元在表達E時被激活,但在表達F時被抑制。這樣一來,我們?nèi)绻麅H看這些個別的單元,它們既不表達F,也不表達E。F和E的知識 是由多個單元之間激活的關系來表達的。

    聯(lián)結主義區(qū)別傳統(tǒng)認知理論的第二個基本特征在于它對知識學習的看法。這也是本文需詳細介紹的。長期 以來,心理語言學家認為,學習語言就是一個學習規(guī)則的過程。這種觀點,如前所述,是與Chomsky的語言學理論密不可分。聯(lián)結主義則認為, Chomsky理論提供了有效的規(guī)則系統(tǒng)來描述語言本身,但這個系統(tǒng)不能描述學習的過程。由于聯(lián)結主義采用分布表征,它認為知識學習的過程就是學習分布表 征的過程。換句話說,學習是經(jīng)過調(diào)節(jié)單元與單元之間的關系來完成的,而調(diào)節(jié)單元與單元之間的關系又是經(jīng)過改變單元與單元之間的權值(weight)來完成 的。那么什么是權值呢?權值是表達單元與單元之間聯(lián)結的強度。權值數(shù)越高,單元之間的聯(lián)結就越強。一旦聯(lián)結網(wǎng)絡中相應的單元都由適當?shù)臋嘀德?lián)系好了,知識 的表達和學習的過程也就完成了。以上述簡化的例子而言,如果我們已經(jīng)學會了F這個字,那么學習E時只需要將最下部分的單元激活并給予高強度權值,將其與網(wǎng) 絡中其它單元聯(lián)結起來,我們便學會了E。

    很顯然,聯(lián)結主義的這些特點,與傳統(tǒng)的認知理論相比,有較強的“生理可解性” (biological plausibility)。單元、激活、抑制,以及聯(lián)結強度等概念,都能在人腦中找到直接的對應。反觀傳統(tǒng)的認知理論,符號、規(guī)則、語言樹形圖等概念則 相當?shù)爻橄螅y以簡單地對應于特定的生物機制。聯(lián)結主義的目的就是要通過對前類概念的描述達到對后類概念的解釋。

    聯(lián)結主義的思想早在上世 紀四十年代初期就出現(xiàn)了(McCulloch and Pitts 1943)。McCulloch等人認為神經(jīng)網(wǎng)絡的結構可以解釋數(shù)理邏輯的功能。與當今的聯(lián)結主義網(wǎng)絡不同的是,他們的網(wǎng)絡的輸出只能是二進制的(on或 off),且單元間聯(lián)結的強度不能通過學習而改變。在McCulloch和Pitts之后有許多人對聯(lián)結主義的思想加以改進,其間以五十年代末期的視覺網(wǎng) 絡(perceptron)最引人注目(Rosenblatt 1958)。視覺網(wǎng)絡雖然克服了許多McCulloch-Pitts網(wǎng)絡的問題(如不限于二進制輸出,也可以在學習中改變單元的聯(lián)結強度),但與所有早期 的聯(lián)結主義模型一樣,都只能解決簡單的“線性可分”(linearly separable)的問題,如邏輯上的“和”(and)與“或”(or)問題。對于“線性不可分”(或稱“非線性”)問題,比如邏輯上的“排它或” (exclusive or,簡稱xor)問題,它們則是一籌莫展。例如:

    (1)○ ○→A  (箭頭表示“歸類為”)

    (2)○ □→B

    (3)□ ○→B

    (4)□ □→A

     在這些例子中,(1)和(4)之間的差別最大(兩個圓形對兩個方塊),(2)和(3)則都是由一個圓形加一個方塊組成,只是次序不同。之所以說這個問題是 “線性不可分”,是因為它要求將差別最大的單位歸為相同的范疇(A)。這種分類法不能簡單地在問題的平面上用直線切開,但對于人來說,我們能夠靈活地使用 非線性方法解決此類問題。從上世紀六十年代起,研究者們就開始考慮如何能使聯(lián)結主義網(wǎng)絡解決非線性問題。Rumelhart,McClelland和 PDP Group(1986)的PDP理論對解決這類問題提出了有效的方法。

    PDP理論的聯(lián)結主義網(wǎng)絡一般由三個層次組成:輸入層(input layer)、內(nèi)隱層(hidden layer)和輸出層(output layer)。輸入層接受輸入的表征(如漢字的字形),輸出層提供輸出應有的表征(如漢字的分類),而內(nèi)隱層則存儲網(wǎng)絡所學習到的知識表征(如漢字在各個 不同學習階段的形體)。網(wǎng)絡學習由輸入層開始,至內(nèi)隱層,再達到輸出層。這個學習過程是一個調(diào)節(jié)網(wǎng)絡中各單元的激活程度及單元之間的聯(lián)結強度的過程。 PDP理論對解決非線性問題最大的貢獻在于它對內(nèi)隱層與其它層次之間的調(diào)節(jié)方法(或稱算法)。聯(lián)結主義網(wǎng)絡中至今最有影響的算法可能要推“反饋學習法” (back-propagation,簡稱BP算法,Rumelhart Hinton and Williams 1986)。按照BP算法,網(wǎng)絡每次學習輸入與輸出的關系時,同時也接受一個“指導信號”(teacher)。這個指導信號乃是網(wǎng)絡應該提供的正確的輸 出。如果網(wǎng)絡所產(chǎn)生的輸出信號與指導信號有差別,那么這個差別的大小就會計算為網(wǎng)絡的誤差率。誤差率然后反饋至網(wǎng)絡,使相關的單元與單元之間的權值得到改 變。這樣不斷改變的結果使網(wǎng)絡能最后正確地產(chǎn)生所有的輸出。最重要的是在這個不斷地調(diào)節(jié)過程中,單元間的權值及內(nèi)隱層單元的激活能夠最有效地反映輸出與輸 入間的關系,從而有效地反映輸入層單位間的內(nèi)在關系(注:由于篇幅及內(nèi)容的限制,我們在這里撇開許多技術上的細節(jié),著眼于提供與語言學有關的理論描述。想 進一步了解PDP理論的讀者可閱讀Rumelhart等人1986年的兩卷PDP論著。對聯(lián)結主義與認知科學有興趣的讀者可閱讀Bechtel and Abrahamsen(1991),Ellis and Humphreys(1999),Spitzer(1999)的論文。對技術細節(jié)或數(shù)學模型有興趣的讀者可閱讀Andersen(1995), Dayhoff(1990),Fausett(1994),以及Hertz,Krogh and Palmer(1991)的論文。)。

     綜上所述,聯(lián)結主義理論與傳統(tǒng)的認知理論有很大的區(qū)別。它所運用的基本概念都與人腦的生物機制有一定程度上的對應關系,例如單元對應于神經(jīng)元,單元的聯(lián)結 對應于神經(jīng)元的聯(lián)結,權值對應于聯(lián)結強度,激活與抑制對應于神經(jīng)元間電生理活動的方式。如何能夠利用單元、聯(lián)結、權值、激活與抑制這些概念去更好地解釋傳 統(tǒng)認知理論中的重大問題乃是聯(lián)結主義理論成功的關鍵。由于語言習得是認知科學中的重大課題,下面我們討論聯(lián)結主義是如何解釋語言習得的。


3.聯(lián)結主義網(wǎng)絡在語言學及語言習得中的運用


     由于內(nèi)隱層和BP算法的出現(xiàn),聯(lián)結主義網(wǎng)絡不單能夠解決簡單的非線性問題,如xor,而且能夠原則上解決任何非線性問題。語言現(xiàn)象也許是最復雜的和最有代 表性的非線性問題之一。聯(lián)結主義網(wǎng)絡打開了語言研究的一扇新大門。Rumelhart等人1986年的兩卷PDP論著為聯(lián)結主義作出了劃時代的貢獻,而語 言又是其中討論得最多的一個環(huán)節(jié)。在聯(lián)結主義看來,我們現(xiàn)有的語法規(guī)則及語義范疇都只能作為有效的語言學理論描述,但不能作為心理表征的機制。換句話說, 語言學理論有實用價值,但沒有心理現(xiàn)實性。這種觀點自1986年由Rumelhart等人在PDP一書中提出后,引起了極大爭論。這個爭論一直持續(xù)到今 天,并無最后定論。

    那么PDP理論怎樣看待語法規(guī)則及語義范疇呢?Rumelhart等人在PDP一書中有許多章節(jié)涉及到語言學的問題, 包括言語感知,句子理解,語言習得等等,我們不能在這里具體一一加以討論。但其中對語言學最有影響的一章就是Rumelhart與McClelland提 出的英語過去時態(tài)的PDP模型。以下我們簡單地介紹一下這個模型。


    3.1聯(lián)結主義網(wǎng)絡對語法規(guī)則的學習


    眾所周知, Chomsky批判傳統(tǒng)的行為主義心理學最有力的證據(jù),就是兒童并非簡單模仿成人語言,而是利用對規(guī)則的掌握進行類推。比如,兒童學習到一定階段時,會說 breaked作為break的過去式,而不是說正確的不規(guī)則形態(tài)broke(Brown 1973;Bybee and Slobin 1982;Kuczaj 1977)。breaked在成人語言中根本不存在,模仿學說的理論顯然難以自圓其說。根據(jù)Chomsky的理論,語言習得研究者一直認為,最有效地解釋 兒童“泛化”(overgeneralization)的方法就是假定兒童在學習的某一階段已經(jīng)掌握了一個抽象的內(nèi)在規(guī)則,如“在任何動詞后加-ed成為 該動詞的過去式”,或“在任何名詞后加-s成為該名詞的復數(shù)形式”。由于內(nèi)在規(guī)則的普遍適用性,兒童便把不規(guī)則的動詞當作規(guī)則動詞來處理 (regularization),產(chǎn)生breaked,comed,或falled等錯誤。要糾正這些錯誤,兒童必須逐字學習,加以校正。這個逐字學習 的過程與規(guī)則的掌握過程完全不同。所以,Pinker等人認為兒童在掌握英語過去時態(tài)時,有兩種不同的學習機制在起作用(Pinker 1991,1999;Pinker and Prince 1988):一種是學習一般性的形態(tài)規(guī)則,由此能產(chǎn)生泛化的結果。另一種則是“聯(lián)想學習”(associative learning),將不規(guī)則動詞的形態(tài)與其基本形式逐個對應起來。前者負責一般規(guī)律,后者負責單個例外。

    PDP理論與這種觀點截然相反。Rumelhart與McClelland的英語過去時態(tài)模型強調(diào)兒童學習過去式只有一種機制在起作用,那就是聯(lián)結主義的 機制。Rumelhart等人使用了一個簡單的聯(lián)結主義網(wǎng)絡來模擬兒童的學習過程,發(fā)現(xiàn)該網(wǎng)絡能產(chǎn)生“U-形學習效應”。所謂U-形學習效應是指兒童在早 期的學習過程中基本不犯語法錯誤,如正確地使用broke,came或fell。在中期的學習階段,錯誤大量出現(xiàn),如不正確地使用breaked, comed或falled。兒童在后期的學習階段才逐步將錯誤消除(Bowerman 1982)。這種效應以前人們一直借助于規(guī)則的學習來解釋:兒童早期沒有學到規(guī)則,中期學到規(guī)則以后泛化使用規(guī)則,后期逐字調(diào)節(jié),對規(guī)則的使用范圍加以改 正。在Rumelhart等人的聯(lián)結主義網(wǎng)絡中并無任何規(guī)則的表征,但網(wǎng)絡卻顯現(xiàn)出規(guī)則的效應。這個網(wǎng)絡是怎樣達到這種效應的呢?在這個模擬中,網(wǎng)絡收到 的是每個動詞詞根的語音特征,然后與它的過去式的語音特征加以匹配。每次匹配的同時,網(wǎng)絡中的聯(lián)結權值得以改變。正是這些聯(lián)結權值使網(wǎng)絡對動詞的基本形態(tài) 與它的過去式之間的關系有了詳盡的了解。這些關系反映過去式形態(tài)變化的基本規(guī)律(flow,glow,slow都是帶-ed作為過去式),從而指導網(wǎng)絡在 學習新動詞時的類推行為(如blow也應帶-ed作為過去式)。在這種學習過程中,網(wǎng)絡能有效地將規(guī)則動詞與不規(guī)則動詞區(qū)別對待。但在同時,這個過程所產(chǎn) 生的結果既有將不規(guī)則動詞當作規(guī)則動詞的情況(regularization,如blowed),也有將規(guī)則動詞當作不規(guī)則動詞的情況 (irregularization,如ment作為mend的過去式)。后一種情況的產(chǎn)生是由于網(wǎng)絡學到了一些不規(guī)則動詞中的“次規(guī)律”(sub- regularities),比如lend,send,spend的過去式分別是lent,sent,spent。這種情況似乎難以用上述Pinker等 人提出的“規(guī)則與例外”的雙機制來解釋。

    Rumelhart與McClelland的模型的一個核心的思想就是語言學規(guī)則是“浮現(xiàn)特征”(emergent properties)。也就是說,聯(lián)結主義網(wǎng)絡通過單元、激活、抑制,與聯(lián)結等特征能夠有效地表達語言行為,而這種表達的有效程度仿佛其背后有語言學規(guī) 則在支配。由上述所見,單一的聯(lián)結主義機制既能反映兒童對規(guī)則過去式的掌握,也能反映其對不規(guī)則過去式的掌握。規(guī)則本身不需要在系統(tǒng)中明確表征,但卻通過 網(wǎng)絡學習浮現(xiàn)而出。我們可以通過一個簡單的例子來了解浮現(xiàn)特征這個概念(Bates 1984)。聯(lián)結主義中的規(guī)則行為可以與蜂窩的六角形狀來加以比較。從單個的蜜蜂的行為來看,蜂窩的六角形狀似乎不可思議。但如果我們分析其動態(tài)物理的特 征,那么六角形則是恰到好處。每個蜜蜂在構造蜂窩時都只需要一小點蜜,但當多個蜜蜂從多個角度將蜜一點一滴地擠入蜂窩,當許多柔軟的小圓形的蜜受到多角度 同時擠壓時,整體蜂窩的形狀便自然而然地成為六角形。在這種情況下,我們說六角形是浮現(xiàn)特征,而不需要假設蜜蜂擁有一個制造六角形的規(guī)則系統(tǒng)。最近,語言 學家和心理語言學家對浮現(xiàn)特征從多個角度給予了討論,一些相關的論點在MacWhinney(1999)一書中有所介紹。

    Rumelhart等人的PDP模型的出現(xiàn)引發(fā)了一系列的爭論,尤其是它與Pinker等人的雙機制的爭論直到今天仍僵持不下。Pinker等人對 Rumelhart與McClelland的模型提出了許多問題,尤其是認為它在詞匯的表征上,在模擬的程序上,以及在語音語義的關系上都不能反映兒童學 習過去式中的許多細節(jié)。后人對Rumelhart與McClelland的模型作了較大的修改(包括結構上的,表征上的及訓練程序上的修改, Plunkett and Marchman 1991,1993;MacWhinney and Leinbach 1991),發(fā)現(xiàn)雖然原有的模型確有缺陷,但擴充后的模型仍支持原有模型的基本觀點。從這些爭論中我們可以回到本文開頭討論的問題而看到一個基本的對立, 那就是應該怎樣看待人腦的構造與功能:人腦到底是一個模塊的符號處理系統(tǒng)呢,還是一個多元的分布處理系統(tǒng)?


    3.2聯(lián)結主義網(wǎng)絡對語義范疇的學習


     自Rumelhart和McClelland模型問世以來,聯(lián)結主義在語言習得中的研究主要注重在對語法規(guī)則和語音結構的表征上,很少在語義方面下功夫。 理由很簡單:語義太復雜。因此即使偶爾有涉及語義的聯(lián)結主義網(wǎng)絡,也只是隨機抽取語義特征,而后加以輕描淡寫。但是聯(lián)結主義的分布表征及學習的特點其實對 解決語義方面的問題有極大的幫助。有鑒于此,筆者在上世紀九十年代開始研究如何用聯(lián)結主義網(wǎng)絡來學習語義范疇。

    Li(1993)及Li和MacWhinney(1996)從“隱型范疇”(cryptotype)著手研究語義的習得問題。隱型范疇在語義學中是個棘手 的問題。Whorf(1956)在1936年對隱型范疇作了如下的“定義”:隱型范疇是微妙的,看不見也摸不著的,不能以一個簡單的標志加以命名的。這樣 的定義似乎叫人對隱型范疇最好敬而遠之。以英語的前綴un-為例,很多動詞可以帶un-(如unbuckle,undress,unfasten, untie),但也有很多動詞不能帶un-(如*unbuild,*unkick,*unmove,*unpush)。Whorf認為有一個隱型范疇在支 配un-的使用。問題就在于語言學家不能清楚地描述隱型范疇。隱型范疇必須通過其它的型態(tài)標記(如前綴un-)來負面定義。

    Bowerman(1982)對Whorf提出的隱型范疇在語言習得中的作用做了探討。她認為兒童在學習動詞前綴un-時經(jīng)歷一個與學習過去時態(tài)一樣的U -型效應。兒童在第一階段正確地使用帶un-的動詞,因為他們尚未將動詞詞根與前綴區(qū)分開來。在第二階段時大量的泛化使用un-錯誤開始出現(xiàn)(如 *unhold,*unpress,*unsqueeze等)。在這個階段重要的是兒童已經(jīng)認識到了un-的隱型范疇,因此與隱型范疇相似的動詞都被用來 帶un-。最后階段兒童才糾正錯誤。Bowerman這樣的解釋十分合理,但最大的問題是沒有說明兒童是怎樣獲得un-的隱型范疇的。

    Li(1993)及Li和MacWhinney(1996)模擬了聯(lián)結主義網(wǎng)絡學習隱型范疇的過程。網(wǎng)絡的任務是按照能否帶un-給動詞加以分類。我們的 假設是隱型范疇之所以“隱型”,乃是由于(a)隱型范疇涉及復雜的語義關系;(b)隱型范疇涉及動詞的許多語義特征;(c)不同的語義特征在隱型范疇中有 不同的激活程度;(d)語義特征之間存在著不是互相排斥而是相互交叉的情況。聯(lián)結主義網(wǎng)絡所使用的分布表征及非線性學習給我們研究隱型范疇提供了最理想的 工具。我們的模擬結果表明,當網(wǎng)絡學到一定的詞匯量時,隱型范疇在網(wǎng)絡的內(nèi)隱層浮現(xiàn)而出。更重要的是,當網(wǎng)絡繼續(xù)學習新詞時,隱型范疇指導它進行類推,產(chǎn) 生類似兒童在第二階段時泛化使用un-的錯誤。這些結果表明,聯(lián)結主義網(wǎng)絡可以通過學習帶un-動詞的語義特征之間的復雜關系以及這些特征與前綴共現(xiàn)的規(guī) 律來形成隱型范疇的表征。通過對網(wǎng)絡內(nèi)隱層的統(tǒng)計分析,我們可以看到帶un-的動詞有一定的特點,而不帶un-的動詞有另外的特點。這些結果進一步說明學 習隱型范疇或un-不是一個簡單的規(guī)則學習過程,而是逐步累計相關特征的計算過程。這個計算過程考察詞義,詞型,以及詞綴之間在所學語料中共現(xiàn)的頻率與規(guī) 律。我們的結果與前面討論的聯(lián)結主義網(wǎng)絡學習語法規(guī)則的結果十分一致。兩者都說明聯(lián)結主義模型的單一機制能學習語言中的許多現(xiàn)象。


    3.3聯(lián)結主義網(wǎng)絡對語言先天性的看法


     在前面我們提到Chomsky的理論對語言學產(chǎn)生了深遠的影響。Chomsky對于規(guī)則系統(tǒng)的闡述可謂盡善盡美。但其理論的另一個核心是規(guī)則的“先天性” (innateness)。這個問題在語言學中有很多詳盡的討論(李行德1992),本文不多加贅述。與Chomsky理論相反,聯(lián)結主義理論強調(diào)學習的 重要性,強調(diào)網(wǎng)絡從語言素材中抽取規(guī)律的能力。但與簡單的經(jīng)驗主義(empiricism)不同,聯(lián)結主義并不否定先天性。這一點在Elman及 Bates等人的《對先天性的再思考》(Rethinking Innateness)一書中有詳細的討論。在這里我們只簡略地介紹一下Elman(1990)等人的觀點。

    Elman(1996)等人認為,前人對先天性的認識局限于單個層次,但先天性本身有三個層次值得研究。第一個層次是表征上的層次 (representational)。這個層次的先天性是指人腦具有先天固有的神經(jīng)系統(tǒng),而且這個系統(tǒng)中的神經(jīng)元之間的關系早已確定為表達特定的范疇與 概念。后天的經(jīng)驗或?qū)W習對這個系統(tǒng)的影響甚微。第二個層次是結構上的層次(architectural)。這個層次的先天性是指人腦的構造對信息的加工或 問題的解決有什么樣的限制。人腦在局部或整體都有一些構造特征,比如單個神經(jīng)元的信息處理速度限制在每秒100個步驟左右,比現(xiàn)有的數(shù)字計算機慢了許多 (如前所述)。第三個層次是發(fā)展速度上的層次(timing of maturational events)。這個層次的先天性是指人腦的各個區(qū)域有不同的發(fā)展進程,如腦功能側(cè)化(hemispheric lateralization)及神經(jīng)元的再生(neurogenesis)。語言習得的“關鍵期”(critical period)就可能是由于人腦可塑性的降低而導致的,反映發(fā)展速度上的先天性。這三個層次上的先天性都在前人的討論之列,但在語言學家眼中(從 Chomsky到Pinker,再到Bickerton),先天性大多停留在第一個層次上。有趣的是,Elman等人從神經(jīng)生物學出發(fā),特地反駁第一層次 上的先天性。他們指出,人腦的DNA本身并無足夠用來表達人類所需的多如牛毛的具體概念與范疇,況且人腦的后天可塑性也與固有神經(jīng)系統(tǒng)的看法不一致。因 此,Elman等人認為結構上和發(fā)展速度上的先天性更為合理及有效,而且這兩個層次上的先天性可以直接在聯(lián)結主義網(wǎng)絡中得到反映與表達(如網(wǎng)絡的結構、關 系及學習速度等)。

    先天與后天,自然與哺育的爭論,自古希臘哲學家開始一直到今天都沒有完整的答案。語言學家、心理學家、及認知科學家現(xiàn) 在開始尋找新的角度來探討這個問題。包括Elman等人在內(nèi)的一些學者認為,單靠內(nèi)在機制或外在因素都不足以解答人與環(huán)境之間的復雜且豐富的相互作用關 系。因此我們應該仔細研究人與環(huán)境之間相互作用下所產(chǎn)生的“浮現(xiàn)特征”。這些浮現(xiàn)特征從聯(lián)結主義的角度來看正是網(wǎng)絡與學習材料之間相互作用的結果。 Nelson(1999)將這種觀點推到一個新的層次,認為人的神經(jīng)系統(tǒng)本身會隨著學習經(jīng)驗的增加而加以改變或得到發(fā)展。也就是說,內(nèi)在的神經(jīng)機制本身也 不是一成不變的。顯而易見,在這種情況下再堅持談內(nèi)在與外在或先天與后天誰更重要就顯得毫無意義了。


4.自組聯(lián)結主義網(wǎng)絡與語言習得


     聯(lián)結主義自Rumulhart等人的PDP論著問世以來已經(jīng)在語言學、心理語言學、神經(jīng)語言學以及語言習得中引起了一波又一波的研究高潮(Ellis and Humphreys 1999)。但迄今為止這些研究大都局限于以下三個方面。首先,大部分涉及語言的聯(lián)結主義模型都只探討語法或語音等語言形態(tài)方面的特征(formal properties of language),而很少研究語義或語用方面的特征。這一點在前面我們已經(jīng)提到,主要原因是后者的研究難度較大。第二,以前的研究大都只使用極少數(shù)量的 語言素材,從幾十到幾百詞匯不等。最著名的聯(lián)結主義網(wǎng)絡之一,Elman(1990)的“簡單回饋網(wǎng)絡”(simple recurrent network)只用了29個名詞和動詞。但這些網(wǎng)絡能否適用于廣泛的、大量的語言素材則是個問題(所謂scalability的問題)。這如同語言學家 用幾個例句能否解釋大量語言學現(xiàn)象一樣。第三,大部分研究語言的網(wǎng)絡都只采用了典型的反饋學習法(BP算法)。BP算法網(wǎng)絡,如前所述,有特定的指導信號 反饋網(wǎng)絡,使相關的權值加以改變。它是一種屬于“有指導學習”(supervised learning)的網(wǎng)絡。這種網(wǎng)絡在研究語言習得方面的可行性很值得懷疑(Li 1999)。雖然兒童學習語言時也有成人指導和兒童模仿的成分,但自從Chomsky批判行為主義的語言學說以來,語言學家們大都認為兒童學習語言時不需 要或不接受“錯誤反饋”(negative evidence,Bowerman 1988)。換句話說,語音習得基本上是一個無需指導的學習過程。

     最近幾年筆者及合作研究者試圖突破以上幾方面的限制,研究一種無需指導的自組聯(lián)結主義網(wǎng)絡(self-organizing connectionist network)來探討語言習得(Li 1999,2000;Li and Shirai 2000;Li and Farkas 2001)。這種網(wǎng)絡屬于非指導學習(unsupervised learning)的神經(jīng)網(wǎng)絡。自組聯(lián)結主義網(wǎng)絡相比傳統(tǒng)的BP網(wǎng)絡對語言習得而言有更大的心理現(xiàn)實性及生物有效性。在這種網(wǎng)絡中,學習通常是在二維平面 圖中進行的(又稱“自組網(wǎng)圖”,self-organizning maps或簡稱SOM;Kohonen 1982,1989,1995)。網(wǎng)圖中的每個單元都能對一個或多個輸入單位加以反射。在學習的最初階段,輸入單位隨機激活網(wǎng)圖中的一個單元,這個單元就 成為該輸入單位的反射代表。隨著網(wǎng)絡的不斷學習,該單元及其周圍的單元對權值不斷加以調(diào)節(jié),使網(wǎng)圖在下次處理同樣的輸入時能夠激活同樣的或鄰近的單元。這 樣不斷調(diào)節(jié)的過程就使網(wǎng)圖上的每個單元只對某些特征相似的輸入加以反射,從而使得網(wǎng)圖能夠利用有限的二維平面來表達多維的輸入特征。

    Miikkulainen(1993,1997)將多個網(wǎng)圖連接起來,用以學習語音、語義及字型的關系。每個網(wǎng)圖本身只表達語音、語義或字型,但網(wǎng)圖與網(wǎng) 圖之間通過赫伯學習法(Hebbian learning)來聯(lián)結,以模擬各語言層面可能產(chǎn)生的相互作用。赫伯學習法(Hebb 1949)是一種有生物基礎的規(guī)則。它的主要原則是兩個神經(jīng)元如果同時激活,它們之間的聯(lián)結強度就會相應提高。筆者與實驗室的研究人員近年利用這種多重網(wǎng) 圖模型來模擬語言習得中的一些具體問題。我們的模型一個最大的特征就是它能通過自組學習,對大量的語言素材進行加工,從詞與詞在句中共現(xiàn)的機率中提取語法 語義范疇。這種提取是根據(jù)最近自然語言處理中對大語料庫加工的相關理論而產(chǎn)生的。Burgess和Lund(1997,1999)提出了hyperspace analogue to language(HAL)的理論,認為自然語言素 材中詞與詞之間的關系提供了足夠的語義信息。Landauer和Dumais(1997)也提出了類似的理論(Latent semantic analysis),認為語義可從詞與篇章的關系中提取。在一系列的研究中,我們發(fā)現(xiàn)如果兒童分析成人話語中詞與詞的共現(xiàn)關系及其頻率,可以獲得詞的語義 及語法關系(Li,Burgess and Lund 2000)。這個結論與最近研究幼兒切分話語單位的結論是一致的(Saffran et al.,1996,1997)。同時,我們還提出了詞匯的發(fā)展模型(DevLex),用以不斷學習新的詞匯表征(Farkas and Li 2001)。DevLex不限于固定的詞匯,而是通過語料的增加而相應地增加新詞,并可以不斷增加網(wǎng)絡中的單元數(shù)目及網(wǎng)圖數(shù)目(Farkas and Li 2002)。這種逐步增加的過程可以更適當?shù)胤从硟和Z言學習或成人外語學習的過程。

    我們將DevLex模型運用到語言習得中的幾 個具體問題上,比如前面提到的語義隱型范疇與前綴un-的關系(Li 1999),英語時態(tài)的學習(Li 2000;Li and Shirai 2000),中英雙語的詞匯表征(Li and Farkas 2001;Li 2001及Li的綜述,2002)。結果表明模型能有效地提取及表達語法語義范疇。在中英雙語的模擬中,兩種語言的詞匯及語音都被網(wǎng)絡自然地分離開來。在 前綴與時態(tài)的模擬中,語義范疇的出現(xiàn)指導著形態(tài)標記的使用,從而產(chǎn)生兒童語言中類推或泛化的現(xiàn)象。總而言之,我們的模型克服了傳統(tǒng)聯(lián)結主義模型的局限:它 利用自組而非反饋網(wǎng)絡,學習大量自然語料,解決語義語法問題,從而達到更自然地反映語言習得本質(zhì)的目的。


5.結語


    從 以上四個部分的討論中,讀者可以看到聯(lián)結主義近十幾年來對西方語言學、心理學及認知科學產(chǎn)生的巨大影響。可惜的是,聯(lián)結主義應用在中文上的研究寥寥無幾。 除了陳鷹和彭聃齡(1994)對漢字認知以及筆者對語言習得的研究外,基本上找不到其它的文獻。這與中國語言文字科學的發(fā)展是極不相稱的。筆者希望通過本 文起到拋磚引玉的作用,使國內(nèi)學人將語言學與聯(lián)結主義的研究推向一個高峰。


【參考文獻】:


    1 Anderson,J.1995.An Introduction to Neural Networks.Cambridge,MA:MIT Press.

    2 Bates,E.1984.Bioprograms and the innateness hypothesis.Behavioral and Brain Sciences,7,188-190.

    3 Bechtel,W.and Abrahamsen,A.1991.Connectionism and the Mind.Cambridge,MA:Blackwell.

    4 Bowerman,M.1982.Reorganizational processes in lexical and syntactic development.In E.Wanner and L. Gleitman,eds.,Language Acquisition:The State of the Art.Cambridge:Cambridge University Press.

    5 ——.1988.The"no negative evidence"problem:how do children avoid constructing an overly general grammar?In J.Hawkins,ed.,Explaining Language Universals.New York:Basil Blackwell.

    6 Brown,R.1973.A First Language.Cambridge,MA:Harvard University Press.

    7 Burgess,C.and Lund,K.1997.Modelling parsing constraints with high-dimensional context space. Language and Cognitive Processes,12,1-34.

    8 ——.1999.The dynamics of meaning in memory.In E.Dietrich and A.Markman,eds.,Cognitive Dynamics:Conceptual and Representational Change in Humans and Machines(pp.17-56).Mahwah, NJ:Erlbaum.

    9 Bybee,J.and Slobin,D.1982.Rules and schemes in the development and use of the English past tense. Language 58:265-289.

    10 Dayhoff,Judith.1991.Neural Network Architecture:An Introduction.New York:Van Nostrand Reinhold.

    11 Ellis,R.and Humphreys,G.1999.Connectionist Psychology: A Text with Readings.Psychology Press: Taylor and Francis.

    12 Elman,J.1990.Finding structure in time.Cognitive Science,14,179-211.

    13 Elman,J.Bates,E.,Johnson,M.,Karmiloff-Smith,A.,Parisi,D.,and Plunkett,K.1996.Rethinking Innateness:A Connectionist Perspective on Development.Cambridge,MA:MIT Press.

    14 Farkas,I.and Li,P.2001.A self-organizing neural network model of the acquisition of word meaning.In E.M.Altmann,A.Cleeremans,C.D.Schunn,and W.D.Gray,eds.,Proceedings of the Fourth International Conference on Cognitive Modeling,pp.67-72.Mahwah,NJ:Lawrence Erlbaum.

    15 ——.2002.Modeling the development of the lexicon with a growing self-organizing map.In H.J. Caulfield et al.,eds.,Proceedings of the Sixth Joint Conference on Information Science,pp,553-556. Association for Intelligent Machinery,Inc.

    16 Fausett,L.1994.Fundamentals of Neural Networks.Englewood Cliffs,NJ:Prentice Hall.

    17 Feldman,J.A.and Ballard,D.1982.Connectionist models and their properties.Cognitive Science,6,205-254.

    18 Fodor,J.1983.The Modularity of Mind.Cambridge,MA:MIT Press.

    19  Hebb, D.  1949.  The Organization of Behavior: A Neuropsychological Theory.New York,NY:Wiley.

    20 Hertz,J.,Krogh,A.and Palmer,R.1991.Introduction to the Theory of Neural Computation.Redwood City,CA:Addison-Wesley.

    21 Kohonen,T.1982.Self-organized formation of topologically correct feature maps.Biological Cybernetics,43,59-69.

    22 ——.1989.Self-organization and Associative Memory.Heidelberg:Springer-Verlag.

    23 ——.1995.Self-organizing Maps.Heidelberg:Springer-Verlag.

    24 Kuczaj,S.1977.The acquisition of regular and irregular past tense forms.Journal of Verbal Learning and Verbal Behavior 16:589-600.

    25 Landauer,T.,Dumais,S.1997.A solution to Plato's problem:the latent semantic analysis theory of acquisition,induction,and representation of knowledge.Psychological Review,104,211-240.

    26  Li, P.1993.Cryptotypes,form-meaning mappings, and overgeneralizations.In E.V.Clark,ed., Proceedings of the 24th Child Language Research Forum pp.162-178.Center for the Study of Language and Information,Stanford University.

    27 ——.1999.Generalization,representation, and recovery ina self-organizing feature-map model of language acquisition.In M.Hahn and S.C.Stoness,eds., Proceedings of the Twenty First Annual Conference of the Cognitive Science Society pp.308-313.Mahwah,NJ:Lawrence Erlbaum.

    28 ——.2000.The acquisition of lexical and grammatical aspect in a self-organizing feature-map model.In L.Gleitman and Aravind K.Joshi,eds.,Proceedings of the Twenty Second Annual Conference of the Cognitive Science Society.Mahwah,NJ:Lawrence Erlbaum.

    29 ——.2001.Language acquisition in a self-organizing neural network model.In P.Quinlan,ed., Connectionism and Developmental Theory.Philadelphia and Brighton:Psychology Press.

    30 ——.2002.Emergent semantic structures and language acquisition:A Dynamic Perspective.In H.Kao, C.K.Leong,and G.D.,Guo,eds.,Cognitive Neuroscience Studies of the Chinese Language.Hong Kong,China:Hong Kong University Press.

    31 Li,P.Burgess,C.and Lund,K.2000.The acquisition of word meaning through global lexical cooccurrences.In E.Clark,ed.,Proceedings of the Thirtieth Stanford Child Language Research Forum, Cambridge,MA:Cambridge University Press.

    32 Li,P.and Farkas,I. 2001.A self-organizing connectionist model of bilingual processing.In R.Heredia and J.Altarriba,eds.,Bilingual Sentence Processing.North-Holland:Elsevier Science Publisher.

    33 Li,P.and MacWhinney,B.1996.Cryptotype,overgeneralization,and competition:A connectionist model of the learning of English reversive prefixes.Connection Science,8,1-28.

    34 Li,P.and Shirai,Y.2000.The Acquisition of Lexical and Grammatical Aspect.Berlin and New York: Mouton de Gruyter.

    35 MacWhinney,B.1999.The Emergence of Language.Mahwah,NJ:Lawrence Erlbaum.

    36 MacWhinney,B.and Leinbach,J.1991.Implementations are not conceptualizations: Revising the verb learning model.Cognition,40,121-157.

    37 McCulloch,W.and Pitts,W.1943.A logical calculus of the ideas immanent in nervous activity.Bulletin of Mathematical Biophysics,7,115-133

    38 Miikkulainen,R.1993.Subsymbolic Natural Language Processing: An Integrated Model of Scripts Lexicon,and Memory.Cambridge,MA:MIT Press.

    39 ——.1997.Dyslexic and category-specific aphasic impairments in a self-organizing feature map model of the lexicon.Brain and Language,59,334-366.

    40 Nelson,C.1999.Neural plasticity and human development. Current Directions in Psychological Science 8,42-45.

    41 Newell,A.1980.Physical symbol systems.Cognitive Science,4,135-183.

    42 Pinker,S.1991.Rules of language.Science,253:530-535.

    43 ——.1999.Out of the minds of babies.Science,283:40-41.

    44 Pinker,S.,Prince,A.1988.On language and connectionism:analysis of a parallel distributed processing model of language acquisition.Cognition,28,73-193.

    45 Plunkett,K.and Marchman,V.1991. U-shaped learning and frequency effects in a multi-layered perceptron: implications for child language acquisition.Cognition,38,43-102.

    46 ——.1993.From rote learning to system building: acquiring verb morphology in children and connectionist nets.Cognition,48,21-69.

    47 Rosenblatt,F.1958.The perceptron:A probabilistic model for information storage and organization in the brain.Psychological Review,65,386-408.

    48 Rumelhart,D.,Hinton, G. and Williams, R.1986.Learning internal representations by error propagation. In: David E.Rumelhart,James L.McClelland and the PDP Research Group,eds., Parallel Distributed Processing:Explorations in  the  Microstructures of Cognition,Vol.1:Foundations. Cambridge,MA:MIT Press.

    49 Rumelhart,D.,James L.McClelland and the PDP Research Group,eds.1986.Parallel Distributed Processing.Explorations in the Microstructure of Cognition,Vol.1:Foundations.Cambridge,MA: MIT Press.

    50 Rumelhart,D.and McClelland,J.1986.On learning the past tenses of English verbs.In:James L. McClelland,David E.Rumelhart and the PDP Research Group,eds.,Parallel Distributed Processing: Explorations in the Microstructures of Cognition,Vol.2:Psychologicaland Biological Models. Cambridge,MA:MIT Press.

    51 Saffran,J.,Aslin,R.and Newport, E.  1996. Statistical learning by 8-month-old infants.Science,274, 1926-1928.

    52 Saffran,J.,Newport,E.,Aslin,R.,Tunick,R.and Barrueco,S.1997.Incidental language learning: Listening(and learning)out of the corner of your ear.Psychological Science,8,101-105.

    53 Spitzer,M.1999.The Mind within the Net.Cambridge,MA:MIT Press.

    54 Uttal,W.2001.The New Phrenology:The Limits of Localizing Cognitive Processes in the Brain. Cambridge,MA:MIT Press.

    55 Whorf,B.1956.Language,Thought,and Reality(edited by John Carroll).Cambridge,MA:MIT Press.

    56 陳鷹、彭聃齡,1994,漢字識別和認知的連接主義模型。In H.-W.Chang,J.-T.Huang,C.-W.Hue, and O.Tzeng,eds.,Advances in the Study of Chinese Language Processing.Vol.1,Taipei:National Taiwan University Press,211-240.

    57 李行德,1992,語法的心理現(xiàn)實性。《國外語言學》第3期,25-34頁。