該系統(tǒng)將基于Google已有的語音識別和自動翻譯技術。后者通過掃描數(shù)百萬種多語網(wǎng)站及文件來不斷改進。到目前為止,這套系統(tǒng)支持的語言有 52 種,并剛在上周加入支持海地官方語言之一克里奧爾語。
Google翻譯服務的負責人Franz Och說:語言對譯應該可行,而且在數(shù)年內(nèi)能夠?qū)崿F(xiàn)。當然,要想非常流暢,需要把高準確度的機器翻譯和高準確度的語音識別結(jié)合起來。
由于Google有龐大的網(wǎng)站及譯文數(shù)據(jù)庫,而且用戶也不斷增多,它的翻譯技術不再使用以語言文法為基礎的規(guī)則,而是能夠不斷改進,被用得越多,也就越準確。
Franz Och表示,相比機器翻譯,語音識別的困難更大,因為即使說同一種語言,每人的聲線、口音及高低音也不同,但通常手機也只有一人使用,相信只要軟件習慣機主的聲音,準確度便會提升。
統(tǒng)計機器翻譯成長的這二十年來,最具傳奇色彩的人物當首推Franz Josef Och。
從2002年起,在美國國防部高等研究計劃局(DARPA)資助的項目TIDES6的框架下,美國國家標準和技術研究所出面組織了NIST機器翻譯評測。NIST評測每年舉辦一次,主要考察的語言對是漢語到英語以及阿拉伯語到英語,并且只對各參評系統(tǒng)的機器翻譯結(jié)果的質(zhì)量進行評測,對系統(tǒng)本身的其他方面不做評價。
在NIST評測中有一個頗具傳奇色彩的人物,就是畢業(yè)于德國亞琛工業(yè)大學的博士生弗朗茨.約瑟夫.歐赫(Franz Joseph Och)。在1999年約翰霍普金斯大學夏季研討班(JHU Summer Workshop 1999)上,他開發(fā)出了著名的IBM模型訓練工具Giza。在2002年NIST評測中,取得第一名的亞琛工業(yè)大學的機器翻譯系統(tǒng)就是由他開發(fā)的。歐赫 2002年從亞琛工業(yè)大學畢業(yè)后進入美國南加州大學信息科學研究所(ISI/USC)工作,同時作為Language Weaver公司的顧問,后來于2004年加盟了谷歌(Google)公司。
他所到的每一個地方都穩(wěn)拿當年NIST機器翻譯評測的第一名。尤其是2005年的NIST評測中,他所在的谷歌公司開發(fā)的漢英機器翻譯系統(tǒng)取得了0.35的BLEU值,比第二名的南加州大學(即他原來所在的單位)的系統(tǒng)的性能提高了近5個百分點。2005年在漢語到英語方向取得前四名的單位分別是谷歌公司、美國南加州大學信息科學研究所(ISI/USC)、馬里蘭大學(UMD)和德國亞琛工業(yè)大學(RWTH);2006年漢英翻譯的這個排名變成美國南加州大學信息科學研究所(ISI/USC)、谷歌公司、美國Language Weaver公司(LW)和德國亞琛工業(yè)大學。其中2006年的這四個研究單位的技術都有一定的淵源關系,全部都是歐赫曾經(jīng)或者正在工作的地方。在2006年評測中,除了漢英機器翻譯的受限語料項目,其他所有項目的第一名都是谷歌公司。
歐赫不僅僅是在評測中成績絕對領先,而且在研究方面也是非常出色的。他這些年來發(fā)表的很多論文,包括博士論文,都成了統(tǒng)計機器翻譯研究領域的經(jīng)典,被人廣泛引用和驗證。更難得的是,他對自己的研究工作持一種非常開放的態(tài)度,一點都不保守。目前統(tǒng)計機器翻譯研究領域一些著名的開源軟件,如IBM模型訓練工具Giza++、最大熵模型訓練工具YASMET都是他開發(fā)的。這一切顯示了歐赫不愧為統(tǒng)計機器翻譯研究的第一人。
歐赫是統(tǒng)計方法的忠實信徒。偉大的希臘科學家阿基米德(Archimedes)說過:只要給我一個支點,我就可以移動地球。(Give me a place to stand on, and I will move the world.)。歐赫模仿阿基米德的口吻說:只要給我充分的并行語言數(shù)據(jù),那么,對于任何的兩種語言,我就可以在幾小時之內(nèi)構造出一個機器翻譯系統(tǒng)。(原話是Give me enough parallel data, and you can have translation system for any two languages in a matter of hours.。)在歐赫的研究中,數(shù)據(jù)規(guī)模總是第一位的。他也嘗試過使用一些句法知識,但他的最后結(jié)論是,句法知識對統(tǒng)計機器翻譯毫無用處,甚至有反作用。因此,歐赫總是試圖用最簡單的模型和最大量的數(shù)據(jù)取勝。
到谷歌公司以后,谷歌公司對海量數(shù)據(jù)的駕馭能力使得歐赫如魚得水。他把谷歌公司在Internet上采集的所有英語文檔都用來訓練英語的語言模型,動用了谷歌公司數(shù)千個CPU組成的計算機集群進行計算。如此巨大的語言模型,使得他所代表的谷歌公司在NIST評測中取得了其他單位難以撼動的優(yōu)勢地位。他這樣做,也是利用了NIST評測規(guī)則中的一個不太合理的規(guī)定。
在NIST評測中,有兩類項目:受限語料項目和不受限語料項目。在受限語料項目中,參評者只能使用評測組織者提供的訓練語料進行訓練。而在不受限語料項目中,參評者可以使用任何語料進行訓練。研究人員一般比較關注受限語料項目的評測,因為只有在語料受限的情況下,參評單位之間的結(jié)果才是可比的。大家比的是算法的好壞,而不是數(shù)據(jù)的規(guī)模和質(zhì)量。但NIST評測規(guī)則不太合理的地方在于,對于受限語料項目,NIST評測只限定了用于訓練翻譯模型的雙語語料必須受限,但對于訓練語言模型的單語語料卻沒有任何限制。這使得谷歌通過這種方式訓練出來的語言模型也可以參加NIST的受限語料項目評測。但他這種做法也遭到了越來越多研究人員的質(zhì)疑,也許作為谷歌公司的企業(yè)行為,這樣做是無可非議的,但作為研究人員來說,他這么做對其他研究人員來說,無疑是不公平的。另外,歐赫到谷歌以后,雖然系統(tǒng)做得非常強大,但他現(xiàn)在已經(jīng)很少發(fā)表論文,通常只是在大會上做一些特邀報告。這樣做的原因可能是因為谷歌公司要保守商業(yè)秘密吧。但這無疑也是讓人覺得非常遺憾的。好在統(tǒng)計機器翻譯領域現(xiàn)在人才輩出,出現(xiàn)了很多新的重量級人物,大家并不會因此感到寂寞。
dm520