作者:李平
來源:當代語言學, Contemporary Linguistics, 編輯部郵箱 2002年 03期
摘要:語言學是認知科學的一個重要分支。本文探討近年來對認知科學產生了重大影響的聯結主義理論及方法,介紹聯結主義的基本概念,在語言學及語言習得中的應用,以及它給語言研究提供的新思路。
Linguistics is an important branch in cognitive science. The paper explores the connectionist theory and methods, introducing the basic concepts in connectionism, its application in language acquisition, and the new insights to linguistic research.
Linguistics is an important branch in cognitive science. The paper explores the connectionist theory and methods, introducing the basic concepts in connectionism, its application in language acquisition, and the new insights to linguistic research.
1.引言:認知科學與語言學
認知科學的發展日新月異。從上世紀五十年代到今天雖然只有短短的幾十年,科學家們對人腦的構造及 功能已經有了比較深入的認識。語言學在這個認識過程中起了十分重要的作用。特別是心理語言學,由于它跨學科的特征,使我們能通過對人們使用語言和學習語言 的心理機制來透視人腦處理信息的普遍特征。本文擬從語言習得的角度來探討目前風靡一時的聯結主義模式(connectionist models)(注:Connectionism又稱為neural networks(神經網絡),國內有學者譯作“連接主義”。但筆者認為“聯結主義”能夠更好地反映這個理論的特征。),并以此討論認知科學及語言學的一 般性問題。
從上世紀五十年代末期到今天,Chomsky的理論一直在語言學中占主導地位。Chomsky對傳統的語言學理論提出了挑戰, 認為語言知識從根本上是一種心理機制,而這種機制的根本又是形式語法系統。也就是說,人腦是通過一個內存的規則系統(形式語法)來反映語言的。過去幾十年 中,Chomsky不斷更新他對形式語法系統的描述,從原有的“轉換生成語法”到今天的“最簡方案”,雖然其間有不少變化,但不離其對規則的基本訴求。心 理學家和心理語言學家們同樣對規則系統深信不疑,認為只有規則系統才能夠有效地反映人腦的高級抽象活動。這種認識乃是基于認知科學家的一個基本假設:人腦 是處理符號系統(symbol system)的機器(Newell 1980)。這個假設對認知科學起了很大的影響:一旦我們將人腦當作符號系統,我們就可以很方便地描述這個機器對符號加工與處理的方式。從某個角度來看, 我們可以拿這部機器與計算機作比較:描述人腦的過程跟描述計算機的軟件操作過程一樣。
這種將人腦看作符號系統的觀點與心理學的模塊理論 (modular theory)有著密不可分的關系。18世紀Franz Gall提出了模塊理論的最初假設。但那時的假設強調人的性格特征與腦骨骼的外型特征的關系,因而缺乏科學根據。現代心理學對模塊理論表述最完備的莫過于 Jerry Fodor(1983)。Fodor認為人腦的認知系統是由許許多多的模塊組成的。這些模塊有的負責語法、有的負責視覺、有的負責聽覺,任務專一 (domain-specific),互相獨立(autonomous)。對于心理語言學來說,最重要的是這些模塊在語言的加工過程中不能同時互動 (parallel interaction)。例如,當你聽到“小明和小張在切蛋糕”這句話時,模塊理論假設,我們是由語音系統開始,然后對詞匯,再對語法,最后對語義進行 加工。這是由低層到高層的一個過程(bottom-up process),次序嚴謹,不能打亂。再者,在對語法加工的同時,語音和語義都不能起作用:每一層面的信息都是自給自足的 (informationally encapsulated)。模塊理論的線性次序,及其分明的層次,對認知科學家具有極強的吸引力。但是,近十幾年來它也受到了強烈的挑戰。對模塊理論及 其在大腦中的表征,讀者可參看Uttal(2001)較系統的闡述及批判。對其挑戰的主要理論當屬聯結主義了。
我們知道,符號系統的觀點 及模塊理論的假設是建立在將人腦比作電腦的基礎之上的。這種比擬的優點是,我們能夠有效地討論人腦在信息處理時的操作過程及加工特征(如線性次序,模塊結 構,加工流程圖等等)。但它最大的缺點是難以在生物及神經學上找到對應的關系(neurally implausible)。人腦內有上千億神經元,而且這些神經元之間的聯結關系比起電腦中幾百或上千的電極管要復雜得多。還有,電極管每秒可以進行幾百 萬或幾千萬次運算,而神經元每秒則只可以發送或接收幾百次電子化學的脈沖。因此,如果人腦是按線性次序來操作,每秒不過能計算一百次左右(100- step rule,Feldman and Ballard1982)。顯而易見,每秒一百個操作步驟是不能夠完成復雜的認知過程的。例如,詞語的加工過程至少精確到十分之一秒。最后,數字電腦只能 接收單一的、清楚的符號信號(all or none),沒有所謂的中介狀態(partial status)。這與人腦的靈活性及可塑性有極大的差別。所有這些原因都給聯結主義的觀點鋪下了基石。
聯結主義的一些初期理論就已經與模 塊理論的基本假設針鋒相對了。最著名的要算“互動激活”(interactive activation)理論。Rumelhart和McClelland(1981)提出了互動激活的基本假說。根據這個假說,語言加工的過程既包含從下 至上的過程(bottom-up process),也包含從上至下的過程(top-down process)。與模塊理論的假說相反,這兩種過程可以在同一時間互動。舉例來說,當你聽到“小明和小張在切蛋糕”這句話時,既可有語音至詞匯至語法至 語義的過程,也可以有語境的作用由上至下幫助聽者理解語義、語法、詞匯及語音。這兩種過程可以從聽者對在噪音的干擾下仍能完整地理解句子的情況中看出來。 如果“蛋糕”的“糕”字突然受到干擾(例如在電話交談中),聽者的理解系統可以自動修補并添加“糕”的字音。Rumelhart和McClelland還 舉例說明,如果英文字母R或K的右上角被遮蓋(類似h),讀者可以根據詞的周圍語境(WOR-)自動修補,達到理解K而不是R。這種語境效應或詞優效應 (word-superiority effect)對互動激活的理論提供了有力的支持。
2.聯結主義的基本特征
互 動激活的假說給聯結主義用于語言分析中打下了基礎。但嚴格地說,它還不能算是聯結主義的模型。按照Rumelhart,McClelland,和PDP (parallel distributed processing)Group(1986)的PDP理論,聯結主義有以下兩個基本特征。首先,在知識的表征(representation)方面,它 強調“分布表征”(distributed representation)。分布表征與傳統認知理論對知識的表征有很大的不同。上面我們提到,傳統認知理論將人腦看作是符號處理系統,因而它采用的 是“方位表征”法(localist representation)。這種表征的基本特點是一個信息加工的單位(或單元)只表達一個概念(例如語素、字或詞),而一個概念也只由一個單位來表 達。這樣,表達單位不能進一步分解為更小的單位,因為它與概念間有清楚的一對一的關系。分布表征與此不同:它強調一個概念由多個單元互相作用的關系來表 達。例如,英文大寫字母F和E之間的不同在于后者多了一橫。照方位表征法,F和E是分別由兩個不同的單元來表達的。照分布表征法,F和E可以由多個同樣的 單元來表達,所不同的某些單元在表達E時被激活,但在表達F時被抑制。這樣一來,我們如果僅看這些個別的單元,它們既不表達F,也不表達E。F和E的知識 是由多個單元之間激活的關系來表達的。
聯結主義區別傳統認知理論的第二個基本特征在于它對知識學習的看法。這也是本文需詳細介紹的。長期 以來,心理語言學家認為,學習語言就是一個學習規則的過程。這種觀點,如前所述,是與Chomsky的語言學理論密不可分。聯結主義則認為, Chomsky理論提供了有效的規則系統來描述語言本身,但這個系統不能描述學習的過程。由于聯結主義采用分布表征,它認為知識學習的過程就是學習分布表 征的過程。換句話說,學習是經過調節單元與單元之間的關系來完成的,而調節單元與單元之間的關系又是經過改變單元與單元之間的權值(weight)來完成 的。那么什么是權值呢?權值是表達單元與單元之間聯結的強度。權值數越高,單元之間的聯結就越強。一旦聯結網絡中相應的單元都由適當的權值聯系好了,知識 的表達和學習的過程也就完成了。以上述簡化的例子而言,如果我們已經學會了F這個字,那么學習E時只需要將最下部分的單元激活并給予高強度權值,將其與網 絡中其它單元聯結起來,我們便學會了E。
很顯然,聯結主義的這些特點,與傳統的認知理論相比,有較強的“生理可解性” (biological plausibility)。單元、激活、抑制,以及聯結強度等概念,都能在人腦中找到直接的對應。反觀傳統的認知理論,符號、規則、語言樹形圖等概念則 相當地抽象,難以簡單地對應于特定的生物機制。聯結主義的目的就是要通過對前類概念的描述達到對后類概念的解釋。
聯結主義的思想早在上世 紀四十年代初期就出現了(McCulloch and Pitts 1943)。McCulloch等人認為神經網絡的結構可以解釋數理邏輯的功能。與當今的聯結主義網絡不同的是,他們的網絡的輸出只能是二進制的(on或 off),且單元間聯結的強度不能通過學習而改變。在McCulloch和Pitts之后有許多人對聯結主義的思想加以改進,其間以五十年代末期的視覺網 絡(perceptron)最引人注目(Rosenblatt 1958)。視覺網絡雖然克服了許多McCulloch-Pitts網絡的問題(如不限于二進制輸出,也可以在學習中改變單元的聯結強度),但與所有早期 的聯結主義模型一樣,都只能解決簡單的“線性可分”(linearly separable)的問題,如邏輯上的“和”(and)與“或”(or)問題。對于“線性不可分”(或稱“非線性”)問題,比如邏輯上的“排它或” (exclusive or,簡稱xor)問題,它們則是一籌莫展。例如:
(1)○ ○→A (箭頭表示“歸類為”)
(2)○ □→B
(3)□ ○→B
(4)□ □→A
在這些例子中,(1)和(4)之間的差別最大(兩個圓形對兩個方塊),(2)和(3)則都是由一個圓形加一個方塊組成,只是次序不同。之所以說這個問題是 “線性不可分”,是因為它要求將差別最大的單位歸為相同的范疇(A)。這種分類法不能簡單地在問題的平面上用直線切開,但對于人來說,我們能夠靈活地使用 非線性方法解決此類問題。從上世紀六十年代起,研究者們就開始考慮如何能使聯結主義網絡解決非線性問題。Rumelhart,McClelland和 PDP Group(1986)的PDP理論對解決這類問題提出了有效的方法。
PDP理論的聯結主義網絡一般由三個層次組成:輸入層(input layer)、內隱層(hidden layer)和輸出層(output layer)。輸入層接受輸入的表征(如漢字的字形),輸出層提供輸出應有的表征(如漢字的分類),而內隱層則存儲網絡所學習到的知識表征(如漢字在各個 不同學習階段的形體)。網絡學習由輸入層開始,至內隱層,再達到輸出層。這個學習過程是一個調節網絡中各單元的激活程度及單元之間的聯結強度的過程。 PDP理論對解決非線性問題最大的貢獻在于它對內隱層與其它層次之間的調節方法(或稱算法)。聯結主義網絡中至今最有影響的算法可能要推“反饋學習法” (back-propagation,簡稱BP算法,Rumelhart Hinton and Williams 1986)。按照BP算法,網絡每次學習輸入與輸出的關系時,同時也接受一個“指導信號”(teacher)。這個指導信號乃是網絡應該提供的正確的輸 出。如果網絡所產生的輸出信號與指導信號有差別,那么這個差別的大小就會計算為網絡的誤差率。誤差率然后反饋至網絡,使相關的單元與單元之間的權值得到改 變。這樣不斷改變的結果使網絡能最后正確地產生所有的輸出。最重要的是在這個不斷地調節過程中,單元間的權值及內隱層單元的激活能夠最有效地反映輸出與輸 入間的關系,從而有效地反映輸入層單位間的內在關系(注:由于篇幅及內容的限制,我們在這里撇開許多技術上的細節,著眼于提供與語言學有關的理論描述。想 進一步了解PDP理論的讀者可閱讀Rumelhart等人1986年的兩卷PDP論著。對聯結主義與認知科學有興趣的讀者可閱讀Bechtel and Abrahamsen(1991),Ellis and Humphreys(1999),Spitzer(1999)的論文。對技術細節或數學模型有興趣的讀者可閱讀Andersen(1995), Dayhoff(1990),Fausett(1994),以及Hertz,Krogh and Palmer(1991)的論文。)。
綜上所述,聯結主義理論與傳統的認知理論有很大的區別。它所運用的基本概念都與人腦的生物機制有一定程度上的對應關系,例如單元對應于神經元,單元的聯結 對應于神經元的聯結,權值對應于聯結強度,激活與抑制對應于神經元間電生理活動的方式。如何能夠利用單元、聯結、權值、激活與抑制這些概念去更好地解釋傳 統認知理論中的重大問題乃是聯結主義理論成功的關鍵。由于語言習得是認知科學中的重大課題,下面我們討論聯結主義是如何解釋語言習得的。
3.聯結主義網絡在語言學及語言習得中的運用
由于內隱層和BP算法的出現,聯結主義網絡不單能夠解決簡單的非線性問題,如xor,而且能夠原則上解決任何非線性問題。語言現象也許是最復雜的和最有代 表性的非線性問題之一。聯結主義網絡打開了語言研究的一扇新大門。Rumelhart等人1986年的兩卷PDP論著為聯結主義作出了劃時代的貢獻,而語 言又是其中討論得最多的一個環節。在聯結主義看來,我們現有的語法規則及語義范疇都只能作為有效的語言學理論描述,但不能作為心理表征的機制。換句話說, 語言學理論有實用價值,但沒有心理現實性。這種觀點自1986年由Rumelhart等人在PDP一書中提出后,引起了極大爭論。這個爭論一直持續到今 天,并無最后定論。
那么PDP理論怎樣看待語法規則及語義范疇呢?Rumelhart等人在PDP一書中有許多章節涉及到語言學的問題, 包括言語感知,句子理解,語言習得等等,我們不能在這里具體一一加以討論。但其中對語言學最有影響的一章就是Rumelhart與McClelland提 出的英語過去時態的PDP模型。以下我們簡單地介紹一下這個模型。
3.1聯結主義網絡對語法規則的學習
眾所周知, Chomsky批判傳統的行為主義心理學最有力的證據,就是兒童并非簡單模仿成人語言,而是利用對規則的掌握進行類推。比如,兒童學習到一定階段時,會說 breaked作為break的過去式,而不是說正確的不規則形態broke(Brown 1973;Bybee and Slobin 1982;Kuczaj 1977)。breaked在成人語言中根本不存在,模仿學說的理論顯然難以自圓其說。根據Chomsky的理論,語言習得研究者一直認為,最有效地解釋 兒童“泛化”(overgeneralization)的方法就是假定兒童在學習的某一階段已經掌握了一個抽象的內在規則,如“在任何動詞后加-ed成為 該動詞的過去式”,或“在任何名詞后加-s成為該名詞的復數形式”。由于內在規則的普遍適用性,兒童便把不規則的動詞當作規則動詞來處理 (regularization),產生breaked,comed,或falled等錯誤。要糾正這些錯誤,兒童必須逐字學習,加以校正。這個逐字學習 的過程與規則的掌握過程完全不同。所以,Pinker等人認為兒童在掌握英語過去時態時,有兩種不同的學習機制在起作用(Pinker 1991,1999;Pinker and Prince 1988):一種是學習一般性的形態規則,由此能產生泛化的結果。另一種則是“聯想學習”(associative learning),將不規則動詞的形態與其基本形式逐個對應起來。前者負責一般規律,后者負責單個例外。
PDP理論與這種觀點截然相反。Rumelhart與McClelland的英語過去時態模型強調兒童學習過去式只有一種機制在起作用,那就是聯結主義的 機制。Rumelhart等人使用了一個簡單的聯結主義網絡來模擬兒童的學習過程,發現該網絡能產生“U-形學習效應”。所謂U-形學習效應是指兒童在早 期的學習過程中基本不犯語法錯誤,如正確地使用broke,came或fell。在中期的學習階段,錯誤大量出現,如不正確地使用breaked, comed或falled。兒童在后期的學習階段才逐步將錯誤消除(Bowerman 1982)。這種效應以前人們一直借助于規則的學習來解釋:兒童早期沒有學到規則,中期學到規則以后泛化使用規則,后期逐字調節,對規則的使用范圍加以改 正。在Rumelhart等人的聯結主義網絡中并無任何規則的表征,但網絡卻顯現出規則的效應。這個網絡是怎樣達到這種效應的呢?在這個模擬中,網絡收到 的是每個動詞詞根的語音特征,然后與它的過去式的語音特征加以匹配。每次匹配的同時,網絡中的聯結權值得以改變。正是這些聯結權值使網絡對動詞的基本形態 與它的過去式之間的關系有了詳盡的了解。這些關系反映過去式形態變化的基本規律(flow,glow,slow都是帶-ed作為過去式),從而指導網絡在 學習新動詞時的類推行為(如blow也應帶-ed作為過去式)。在這種學習過程中,網絡能有效地將規則動詞與不規則動詞區別對待。但在同時,這個過程所產 生的結果既有將不規則動詞當作規則動詞的情況(regularization,如blowed),也有將規則動詞當作不規則動詞的情況 (irregularization,如ment作為mend的過去式)。后一種情況的產生是由于網絡學到了一些不規則動詞中的“次規律”(sub- regularities),比如lend,send,spend的過去式分別是lent,sent,spent。這種情況似乎難以用上述Pinker等 人提出的“規則與例外”的雙機制來解釋。
Rumelhart與McClelland的模型的一個核心的思想就是語言學規則是“浮現特征”(emergent properties)。也就是說,聯結主義網絡通過單元、激活、抑制,與聯結等特征能夠有效地表達語言行為,而這種表達的有效程度仿佛其背后有語言學規 則在支配。由上述所見,單一的聯結主義機制既能反映兒童對規則過去式的掌握,也能反映其對不規則過去式的掌握。規則本身不需要在系統中明確表征,但卻通過 網絡學習浮現而出。我們可以通過一個簡單的例子來了解浮現特征這個概念(Bates 1984)。聯結主義中的規則行為可以與蜂窩的六角形狀來加以比較。從單個的蜜蜂的行為來看,蜂窩的六角形狀似乎不可思議。但如果我們分析其動態物理的特 征,那么六角形則是恰到好處。每個蜜蜂在構造蜂窩時都只需要一小點蜜,但當多個蜜蜂從多個角度將蜜一點一滴地擠入蜂窩,當許多柔軟的小圓形的蜜受到多角度 同時擠壓時,整體蜂窩的形狀便自然而然地成為六角形。在這種情況下,我們說六角形是浮現特征,而不需要假設蜜蜂擁有一個制造六角形的規則系統。最近,語言 學家和心理語言學家對浮現特征從多個角度給予了討論,一些相關的論點在MacWhinney(1999)一書中有所介紹。
Rumelhart等人的PDP模型的出現引發了一系列的爭論,尤其是它與Pinker等人的雙機制的爭論直到今天仍僵持不下。Pinker等人對 Rumelhart與McClelland的模型提出了許多問題,尤其是認為它在詞匯的表征上,在模擬的程序上,以及在語音語義的關系上都不能反映兒童學 習過去式中的許多細節。后人對Rumelhart與McClelland的模型作了較大的修改(包括結構上的,表征上的及訓練程序上的修改, Plunkett and Marchman 1991,1993;MacWhinney and Leinbach 1991),發現雖然原有的模型確有缺陷,但擴充后的模型仍支持原有模型的基本觀點。從這些爭論中我們可以回到本文開頭討論的問題而看到一個基本的對立, 那就是應該怎樣看待人腦的構造與功能:人腦到底是一個模塊的符號處理系統呢,還是一個多元的分布處理系統?
3.2聯結主義網絡對語義范疇的學習
自Rumelhart和McClelland模型問世以來,聯結主義在語言習得中的研究主要注重在對語法規則和語音結構的表征上,很少在語義方面下功夫。 理由很簡單:語義太復雜。因此即使偶爾有涉及語義的聯結主義網絡,也只是隨機抽取語義特征,而后加以輕描淡寫。但是聯結主義的分布表征及學習的特點其實對 解決語義方面的問題有極大的幫助。有鑒于此,筆者在上世紀九十年代開始研究如何用聯結主義網絡來學習語義范疇。
Li(1993)及Li和MacWhinney(1996)從“隱型范疇”(cryptotype)著手研究語義的習得問題。隱型范疇在語義學中是個棘手 的問題。Whorf(1956)在1936年對隱型范疇作了如下的“定義”:隱型范疇是微妙的,看不見也摸不著的,不能以一個簡單的標志加以命名的。這樣 的定義似乎叫人對隱型范疇最好敬而遠之。以英語的前綴un-為例,很多動詞可以帶un-(如unbuckle,undress,unfasten, untie),但也有很多動詞不能帶un-(如*unbuild,*unkick,*unmove,*unpush)。Whorf認為有一個隱型范疇在支 配un-的使用。問題就在于語言學家不能清楚地描述隱型范疇。隱型范疇必須通過其它的型態標記(如前綴un-)來負面定義。
Bowerman(1982)對Whorf提出的隱型范疇在語言習得中的作用做了探討。她認為兒童在學習動詞前綴un-時經歷一個與學習過去時態一樣的U -型效應。兒童在第一階段正確地使用帶un-的動詞,因為他們尚未將動詞詞根與前綴區分開來。在第二階段時大量的泛化使用un-錯誤開始出現(如 *unhold,*unpress,*unsqueeze等)。在這個階段重要的是兒童已經認識到了un-的隱型范疇,因此與隱型范疇相似的動詞都被用來 帶un-。最后階段兒童才糾正錯誤。Bowerman這樣的解釋十分合理,但最大的問題是沒有說明兒童是怎樣獲得un-的隱型范疇的。
Li(1993)及Li和MacWhinney(1996)模擬了聯結主義網絡學習隱型范疇的過程。網絡的任務是按照能否帶un-給動詞加以分類。我們的 假設是隱型范疇之所以“隱型”,乃是由于(a)隱型范疇涉及復雜的語義關系;(b)隱型范疇涉及動詞的許多語義特征;(c)不同的語義特征在隱型范疇中有 不同的激活程度;(d)語義特征之間存在著不是互相排斥而是相互交叉的情況。聯結主義網絡所使用的分布表征及非線性學習給我們研究隱型范疇提供了最理想的 工具。我們的模擬結果表明,當網絡學到一定的詞匯量時,隱型范疇在網絡的內隱層浮現而出。更重要的是,當網絡繼續學習新詞時,隱型范疇指導它進行類推,產 生類似兒童在第二階段時泛化使用un-的錯誤。這些結果表明,聯結主義網絡可以通過學習帶un-動詞的語義特征之間的復雜關系以及這些特征與前綴共現的規 律來形成隱型范疇的表征。通過對網絡內隱層的統計分析,我們可以看到帶un-的動詞有一定的特點,而不帶un-的動詞有另外的特點。這些結果進一步說明學 習隱型范疇或un-不是一個簡單的規則學習過程,而是逐步累計相關特征的計算過程。這個計算過程考察詞義,詞型,以及詞綴之間在所學語料中共現的頻率與規 律。我們的結果與前面討論的聯結主義網絡學習語法規則的結果十分一致。兩者都說明聯結主義模型的單一機制能學習語言中的許多現象。
3.3聯結主義網絡對語言先天性的看法
在前面我們提到Chomsky的理論對語言學產生了深遠的影響。Chomsky對于規則系統的闡述可謂盡善盡美。但其理論的另一個核心是規則的“先天性” (innateness)。這個問題在語言學中有很多詳盡的討論(李行德1992),本文不多加贅述。與Chomsky理論相反,聯結主義理論強調學習的 重要性,強調網絡從語言素材中抽取規律的能力。但與簡單的經驗主義(empiricism)不同,聯結主義并不否定先天性。這一點在Elman及 Bates等人的《對先天性的再思考》(Rethinking Innateness)一書中有詳細的討論。在這里我們只簡略地介紹一下Elman(1990)等人的觀點。
Elman(1996)等人認為,前人對先天性的認識局限于單個層次,但先天性本身有三個層次值得研究。第一個層次是表征上的層次 (representational)。這個層次的先天性是指人腦具有先天固有的神經系統,而且這個系統中的神經元之間的關系早已確定為表達特定的范疇與 概念。后天的經驗或學習對這個系統的影響甚微。第二個層次是結構上的層次(architectural)。這個層次的先天性是指人腦的構造對信息的加工或 問題的解決有什么樣的限制。人腦在局部或整體都有一些構造特征,比如單個神經元的信息處理速度限制在每秒100個步驟左右,比現有的數字計算機慢了許多 (如前所述)。第三個層次是發展速度上的層次(timing of maturational events)。這個層次的先天性是指人腦的各個區域有不同的發展進程,如腦功能側化(hemispheric lateralization)及神經元的再生(neurogenesis)。語言習得的“關鍵期”(critical period)就可能是由于人腦可塑性的降低而導致的,反映發展速度上的先天性。這三個層次上的先天性都在前人的討論之列,但在語言學家眼中(從 Chomsky到Pinker,再到Bickerton),先天性大多停留在第一個層次上。有趣的是,Elman等人從神經生物學出發,特地反駁第一層次 上的先天性。他們指出,人腦的DNA本身并無足夠用來表達人類所需的多如牛毛的具體概念與范疇,況且人腦的后天可塑性也與固有神經系統的看法不一致。因 此,Elman等人認為結構上和發展速度上的先天性更為合理及有效,而且這兩個層次上的先天性可以直接在聯結主義網絡中得到反映與表達(如網絡的結構、關 系及學習速度等)。
先天與后天,自然與哺育的爭論,自古希臘哲學家開始一直到今天都沒有完整的答案。語言學家、心理學家、及認知科學家現 在開始尋找新的角度來探討這個問題。包括Elman等人在內的一些學者認為,單靠內在機制或外在因素都不足以解答人與環境之間的復雜且豐富的相互作用關 系。因此我們應該仔細研究人與環境之間相互作用下所產生的“浮現特征”。這些浮現特征從聯結主義的角度來看正是網絡與學習材料之間相互作用的結果。 Nelson(1999)將這種觀點推到一個新的層次,認為人的神經系統本身會隨著學習經驗的增加而加以改變或得到發展。也就是說,內在的神經機制本身也 不是一成不變的。顯而易見,在這種情況下再堅持談內在與外在或先天與后天誰更重要就顯得毫無意義了。
4.自組聯結主義網絡與語言習得
聯結主義自Rumulhart等人的PDP論著問世以來已經在語言學、心理語言學、神經語言學以及語言習得中引起了一波又一波的研究高潮(Ellis and Humphreys 1999)。但迄今為止這些研究大都局限于以下三個方面。首先,大部分涉及語言的聯結主義模型都只探討語法或語音等語言形態方面的特征(formal properties of language),而很少研究語義或語用方面的特征。這一點在前面我們已經提到,主要原因是后者的研究難度較大。第二,以前的研究大都只使用極少數量的 語言素材,從幾十到幾百詞匯不等。最著名的聯結主義網絡之一,Elman(1990)的“簡單回饋網絡”(simple recurrent network)只用了29個名詞和動詞。但這些網絡能否適用于廣泛的、大量的語言素材則是個問題(所謂scalability的問題)。這如同語言學家 用幾個例句能否解釋大量語言學現象一樣。第三,大部分研究語言的網絡都只采用了典型的反饋學習法(BP算法)。BP算法網絡,如前所述,有特定的指導信號 反饋網絡,使相關的權值加以改變。它是一種屬于“有指導學習”(supervised learning)的網絡。這種網絡在研究語言習得方面的可行性很值得懷疑(Li 1999)。雖然兒童學習語言時也有成人指導和兒童模仿的成分,但自從Chomsky批判行為主義的語言學說以來,語言學家們大都認為兒童學習語言時不需 要或不接受“錯誤反饋”(negative evidence,Bowerman 1988)。換句話說,語音習得基本上是一個無需指導的學習過程。
最近幾年筆者及合作研究者試圖突破以上幾方面的限制,研究一種無需指導的自組聯結主義網絡(self-organizing connectionist network)來探討語言習得(Li 1999,2000;Li and Shirai 2000;Li and Farkas 2001)。這種網絡屬于非指導學習(unsupervised learning)的神經網絡。自組聯結主義網絡相比傳統的BP網絡對語言習得而言有更大的心理現實性及生物有效性。在這種網絡中,學習通常是在二維平面 圖中進行的(又稱“自組網圖”,self-organizning maps或簡稱SOM;Kohonen 1982,1989,1995)。網圖中的每個單元都能對一個或多個輸入單位加以反射。在學習的最初階段,輸入單位隨機激活網圖中的一個單元,這個單元就 成為該輸入單位的反射代表。隨著網絡的不斷學習,該單元及其周圍的單元對權值不斷加以調節,使網圖在下次處理同樣的輸入時能夠激活同樣的或鄰近的單元。這 樣不斷調節的過程就使網圖上的每個單元只對某些特征相似的輸入加以反射,從而使得網圖能夠利用有限的二維平面來表達多維的輸入特征。
Miikkulainen(1993,1997)將多個網圖連接起來,用以學習語音、語義及字型的關系。每個網圖本身只表達語音、語義或字型,但網圖與網 圖之間通過赫伯學習法(Hebbian learning)來聯結,以模擬各語言層面可能產生的相互作用。赫伯學習法(Hebb 1949)是一種有生物基礎的規則。它的主要原則是兩個神經元如果同時激活,它們之間的聯結強度就會相應提高。筆者與實驗室的研究人員近年利用這種多重網 圖模型來模擬語言習得中的一些具體問題。我們的模型一個最大的特征就是它能通過自組學習,對大量的語言素材進行加工,從詞與詞在句中共現的機率中提取語法 語義范疇。這種提取是根據最近自然語言處理中對大語料庫加工的相關理論而產生的。Burgess和Lund(1997,1999)提出了hyperspace analogue to language(HAL)的理論,認為自然語言素 材中詞與詞之間的關系提供了足夠的語義信息。Landauer和Dumais(1997)也提出了類似的理論(Latent semantic analysis),認為語義可從詞與篇章的關系中提取。在一系列的研究中,我們發現如果兒童分析成人話語中詞與詞的共現關系及其頻率,可以獲得詞的語義 及語法關系(Li,Burgess and Lund 2000)。這個結論與最近研究幼兒切分話語單位的結論是一致的(Saffran et al.,1996,1997)。同時,我們還提出了詞匯的發展模型(DevLex),用以不斷學習新的詞匯表征(Farkas and Li 2001)。DevLex不限于固定的詞匯,而是通過語料的增加而相應地增加新詞,并可以不斷增加網絡中的單元數目及網圖數目(Farkas and Li 2002)。這種逐步增加的過程可以更適當地反映兒童語言學習或成人外語學習的過程。
我們將DevLex模型運用到語言習得中的幾 個具體問題上,比如前面提到的語義隱型范疇與前綴un-的關系(Li 1999),英語時態的學習(Li 2000;Li and Shirai 2000),中英雙語的詞匯表征(Li and Farkas 2001;Li 2001及Li的綜述,2002)。結果表明模型能有效地提取及表達語法語義范疇。在中英雙語的模擬中,兩種語言的詞匯及語音都被網絡自然地分離開來。在 前綴與時態的模擬中,語義范疇的出現指導著形態標記的使用,從而產生兒童語言中類推或泛化的現象。總而言之,我們的模型克服了傳統聯結主義模型的局限:它 利用自組而非反饋網絡,學習大量自然語料,解決語義語法問題,從而達到更自然地反映語言習得本質的目的。
5.結語
從 以上四個部分的討論中,讀者可以看到聯結主義近十幾年來對西方語言學、心理學及認知科學產生的巨大影響。可惜的是,聯結主義應用在中文上的研究寥寥無幾。 除了陳鷹和彭聃齡(1994)對漢字認知以及筆者對語言習得的研究外,基本上找不到其它的文獻。這與中國語言文字科學的發展是極不相稱的。筆者希望通過本 文起到拋磚引玉的作用,使國內學人將語言學與聯結主義的研究推向一個高峰。
【參考文獻】:
1 Anderson,J.1995.An Introduction to Neural Networks.Cambridge,MA:MIT Press.
2 Bates,E.1984.Bioprograms and the innateness hypothesis.Behavioral and Brain Sciences,7,188-190.
3 Bechtel,W.and Abrahamsen,A.1991.Connectionism and the Mind.Cambridge,MA:Blackwell.
4 Bowerman,M.1982.Reorganizational processes in lexical and syntactic development.In E.Wanner and L. Gleitman,eds.,Language Acquisition:The State of the Art.Cambridge:Cambridge University Press.
5 ——.1988.The"no negative evidence"problem:how do children avoid constructing an overly general grammar?In J.Hawkins,ed.,Explaining Language Universals.New York:Basil Blackwell.
6 Brown,R.1973.A First Language.Cambridge,MA:Harvard University Press.
7 Burgess,C.and Lund,K.1997.Modelling parsing constraints with high-dimensional context space. Language and Cognitive Processes,12,1-34.
8 ——.1999.The dynamics of meaning in memory.In E.Dietrich and A.Markman,eds.,Cognitive Dynamics:Conceptual and Representational Change in Humans and Machines(pp.17-56).Mahwah, NJ:Erlbaum.
9 Bybee,J.and Slobin,D.1982.Rules and schemes in the development and use of the English past tense. Language 58:265-289.
10 Dayhoff,Judith.1991.Neural Network Architecture:An Introduction.New York:Van Nostrand Reinhold.
11 Ellis,R.and Humphreys,G.1999.Connectionist Psychology: A Text with Readings.Psychology Press: Taylor and Francis.
12 Elman,J.1990.Finding structure in time.Cognitive Science,14,179-211.
13 Elman,J.Bates,E.,Johnson,M.,Karmiloff-Smith,A.,Parisi,D.,and Plunkett,K.1996.Rethinking Innateness:A Connectionist Perspective on Development.Cambridge,MA:MIT Press.
14 Farkas,I.and Li,P.2001.A self-organizing neural network model of the acquisition of word meaning.In E.M.Altmann,A.Cleeremans,C.D.Schunn,and W.D.Gray,eds.,Proceedings of the Fourth International Conference on Cognitive Modeling,pp.67-72.Mahwah,NJ:Lawrence Erlbaum.
15 ——.2002.Modeling the development of the lexicon with a growing self-organizing map.In H.J. Caulfield et al.,eds.,Proceedings of the Sixth Joint Conference on Information Science,pp,553-556. Association for Intelligent Machinery,Inc.
16 Fausett,L.1994.Fundamentals of Neural Networks.Englewood Cliffs,NJ:Prentice Hall.
17 Feldman,J.A.and Ballard,D.1982.Connectionist models and their properties.Cognitive Science,6,205-254.
18 Fodor,J.1983.The Modularity of Mind.Cambridge,MA:MIT Press.
19 Hebb, D. 1949. The Organization of Behavior: A Neuropsychological Theory.New York,NY:Wiley.
20 Hertz,J.,Krogh,A.and Palmer,R.1991.Introduction to the Theory of Neural Computation.Redwood City,CA:Addison-Wesley.
21 Kohonen,T.1982.Self-organized formation of topologically correct feature maps.Biological Cybernetics,43,59-69.
22 ——.1989.Self-organization and Associative Memory.Heidelberg:Springer-Verlag.
23 ——.1995.Self-organizing Maps.Heidelberg:Springer-Verlag.
24 Kuczaj,S.1977.The acquisition of regular and irregular past tense forms.Journal of Verbal Learning and Verbal Behavior 16:589-600.
25 Landauer,T.,Dumais,S.1997.A solution to Plato's problem:the latent semantic analysis theory of acquisition,induction,and representation of knowledge.Psychological Review,104,211-240.
26 Li, P.1993.Cryptotypes,form-meaning mappings, and overgeneralizations.In E.V.Clark,ed., Proceedings of the 24th Child Language Research Forum pp.162-178.Center for the Study of Language and Information,Stanford University.
27 ——.1999.Generalization,representation, and recovery ina self-organizing feature-map model of language acquisition.In M.Hahn and S.C.Stoness,eds., Proceedings of the Twenty First Annual Conference of the Cognitive Science Society pp.308-313.Mahwah,NJ:Lawrence Erlbaum.
28 ——.2000.The acquisition of lexical and grammatical aspect in a self-organizing feature-map model.In L.Gleitman and Aravind K.Joshi,eds.,Proceedings of the Twenty Second Annual Conference of the Cognitive Science Society.Mahwah,NJ:Lawrence Erlbaum.
29 ——.2001.Language acquisition in a self-organizing neural network model.In P.Quinlan,ed., Connectionism and Developmental Theory.Philadelphia and Brighton:Psychology Press.
30 ——.2002.Emergent semantic structures and language acquisition:A Dynamic Perspective.In H.Kao, C.K.Leong,and G.D.,Guo,eds.,Cognitive Neuroscience Studies of the Chinese Language.Hong Kong,China:Hong Kong University Press.
31 Li,P.Burgess,C.and Lund,K.2000.The acquisition of word meaning through global lexical cooccurrences.In E.Clark,ed.,Proceedings of the Thirtieth Stanford Child Language Research Forum, Cambridge,MA:Cambridge University Press.
32 Li,P.and Farkas,I. 2001.A self-organizing connectionist model of bilingual processing.In R.Heredia and J.Altarriba,eds.,Bilingual Sentence Processing.North-Holland:Elsevier Science Publisher.
33 Li,P.and MacWhinney,B.1996.Cryptotype,overgeneralization,and competition:A connectionist model of the learning of English reversive prefixes.Connection Science,8,1-28.
34 Li,P.and Shirai,Y.2000.The Acquisition of Lexical and Grammatical Aspect.Berlin and New York: Mouton de Gruyter.
35 MacWhinney,B.1999.The Emergence of Language.Mahwah,NJ:Lawrence Erlbaum.
36 MacWhinney,B.and Leinbach,J.1991.Implementations are not conceptualizations: Revising the verb learning model.Cognition,40,121-157.
37 McCulloch,W.and Pitts,W.1943.A logical calculus of the ideas immanent in nervous activity.Bulletin of Mathematical Biophysics,7,115-133
38 Miikkulainen,R.1993.Subsymbolic Natural Language Processing: An Integrated Model of Scripts Lexicon,and Memory.Cambridge,MA:MIT Press.
39 ——.1997.Dyslexic and category-specific aphasic impairments in a self-organizing feature map model of the lexicon.Brain and Language,59,334-366.
40 Nelson,C.1999.Neural plasticity and human development. Current Directions in Psychological Science 8,42-45.
41 Newell,A.1980.Physical symbol systems.Cognitive Science,4,135-183.
42 Pinker,S.1991.Rules of language.Science,253:530-535.
43 ——.1999.Out of the minds of babies.Science,283:40-41.
44 Pinker,S.,Prince,A.1988.On language and connectionism:analysis of a parallel distributed processing model of language acquisition.Cognition,28,73-193.
45 Plunkett,K.and Marchman,V.1991. U-shaped learning and frequency effects in a multi-layered perceptron: implications for child language acquisition.Cognition,38,43-102.
46 ——.1993.From rote learning to system building: acquiring verb morphology in children and connectionist nets.Cognition,48,21-69.
47 Rosenblatt,F.1958.The perceptron:A probabilistic model for information storage and organization in the brain.Psychological Review,65,386-408.
48 Rumelhart,D.,Hinton, G. and Williams, R.1986.Learning internal representations by error propagation. In: David E.Rumelhart,James L.McClelland and the PDP Research Group,eds., Parallel Distributed Processing:Explorations in the Microstructures of Cognition,Vol.1:Foundations. Cambridge,MA:MIT Press.
49 Rumelhart,D.,James L.McClelland and the PDP Research Group,eds.1986.Parallel Distributed Processing.Explorations in the Microstructure of Cognition,Vol.1:Foundations.Cambridge,MA: MIT Press.
50 Rumelhart,D.and McClelland,J.1986.On learning the past tenses of English verbs.In:James L. McClelland,David E.Rumelhart and the PDP Research Group,eds.,Parallel Distributed Processing: Explorations in the Microstructures of Cognition,Vol.2:Psychologicaland Biological Models. Cambridge,MA:MIT Press.
51 Saffran,J.,Aslin,R.and Newport, E. 1996. Statistical learning by 8-month-old infants.Science,274, 1926-1928.
52 Saffran,J.,Newport,E.,Aslin,R.,Tunick,R.and Barrueco,S.1997.Incidental language learning: Listening(and learning)out of the corner of your ear.Psychological Science,8,101-105.
53 Spitzer,M.1999.The Mind within the Net.Cambridge,MA:MIT Press.
54 Uttal,W.2001.The New Phrenology:The Limits of Localizing Cognitive Processes in the Brain. Cambridge,MA:MIT Press.
55 Whorf,B.1956.Language,Thought,and Reality(edited by John Carroll).Cambridge,MA:MIT Press.
56 陳鷹、彭聃齡,1994,漢字識別和認知的連接主義模型。In H.-W.Chang,J.-T.Huang,C.-W.Hue, and O.Tzeng,eds.,Advances in the Study of Chinese Language Processing.Vol.1,Taipei:National Taiwan University Press,211-240.
57 李行德,1992,語法的心理現實性。《國外語言學》第3期,25-34頁。