據英國《星期日泰晤士報》報道,Google正在研發能夠即時翻譯外語的手機軟件,就像真人翻譯一樣,它能夠聽懂一組一組說話者的聲音,幾乎立即翻譯為聽話者的語言。這個軟件如果研發成功,將有望改變全球說各種不同語言(據估計目前世界在使用的語言有6000 多種)的人之間的溝通方式,人們也不再需要為了與人口頭交流而去學習外語。

 

該系統將基于Google已有的語音識別和自動翻譯技術。后者通過掃描數百萬種多語網站及文件來不斷改進。到目前為止,這套系統支持的語言有 52 種,并剛在上周加入支持海地官方語言之一克里奧爾語。

Google翻譯服務的負責人Franz Och說:語言對譯應該可行,而且在數年內能夠實現。當然,要想非常流暢,需要把高準確度的機器翻譯和高準確度的語音識別結合起來。

由于Google有龐大的網站及譯文數據庫,而且用戶也不斷增多,它的翻譯技術不再使用以語言文法為基礎的規則,而是能夠不斷改進,被用得越多,也就越準確。

Franz Och表示,相比機器翻譯,語音識別的困難更大,因為即使說同一種語言,每人的聲線、口音及高低音也不同,但通常手機也只有一人使用,相信只要軟件習慣機主的聲音,準確度便會提升。

【人物簡介】

統計機器翻譯成長的這二十年來,最具傳奇色彩的人物當首推Franz Josef Och。

從2002年起,在美國國防部高等研究計劃局(DARPA)資助的項目TIDES6的框架下,美國國家標準和技術研究所出面組織了NIST機器翻譯評測。NIST評測每年舉辦一次,主要考察的語言對是漢語到英語以及阿拉伯語到英語,并且只對各參評系統的機器翻譯結果的質量進行評測,對系統本身的其他方面不做評價。

在NIST評測中有一個頗具傳奇色彩的人物,就是畢業于德國亞琛工業大學的博士生弗朗茨.約瑟夫.歐赫(Franz Joseph Och)。在1999年約翰霍普金斯大學夏季研討班(JHU Summer Workshop 1999)上,他開發出了著名的IBM模型訓練工具Giza。在2002年NIST評測中,取得第一名的亞琛工業大學的機器翻譯系統就是由他開發的。歐赫 2002年從亞琛工業大學畢業后進入美國南加州大學信息科學研究所(ISI/USC)工作,同時作為Language Weaver公司的顧問,后來于2004年加盟了谷歌(Google)公司。

他所到的每一個地方都穩拿當年NIST機器翻譯評測的第一名。尤其是2005年的NIST評測中,他所在的谷歌公司開發的漢英機器翻譯系統取得了0.35的BLEU值,比第二名的南加州大學(即他原來所在的單位)的系統的性能提高了近5個百分點。2005年在漢語到英語方向取得前四名的單位分別是谷歌公司、美國南加州大學信息科學研究所(ISI/USC)、馬里蘭大學(UMD)和德國亞琛工業大學(RWTH);2006年漢英翻譯的這個排名變成美國南加州大學信息科學研究所(ISI/USC)、谷歌公司、美國Language Weaver公司(LW)和德國亞琛工業大學。其中2006年的這四個研究單位的技術都有一定的淵源關系,全部都是歐赫曾經或者正在工作的地方。在2006年評測中,除了漢英機器翻譯的受限語料項目,其他所有項目的第一名都是谷歌公司。

歐赫不僅僅是在評測中成績絕對領先,而且在研究方面也是非常出色的。他這些年來發表的很多論文,包括博士論文,都成了統計機器翻譯研究領域的經典,被人廣泛引用和驗證。更難得的是,他對自己的研究工作持一種非常開放的態度,一點都不保守。目前統計機器翻譯研究領域一些著名的開源軟件,如IBM模型訓練工具Giza++、最大熵模型訓練工具YASMET都是他開發的。這一切顯示了歐赫不愧為統計機器翻譯研究的第一人。

歐赫是統計方法的忠實信徒。偉大的希臘科學家阿基米德(Archimedes)說過:只要給我一個支點,我就可以移動地球。(Give me a place to stand on, and I will move the world.)。歐赫模仿阿基米德的口吻說:只要給我充分的并行語言數據,那么,對于任何的兩種語言,我就可以在幾小時之內構造出一個機器翻譯系統。(原話是Give me enough parallel data, and you can have translation system for any two languages in a matter of hours.。)在歐赫的研究中,數據規模總是第一位的。他也嘗試過使用一些句法知識,但他的最后結論是,句法知識對統計機器翻譯毫無用處,甚至有反作用。因此,歐赫總是試圖用最簡單的模型和最大量的數據取勝。

到谷歌公司以后,谷歌公司對海量數據的駕馭能力使得歐赫如魚得水。他把谷歌公司在Internet上采集的所有英語文檔都用來訓練英語的語言模型,動用了谷歌公司數千個CPU組成的計算機集群進行計算。如此巨大的語言模型,使得他所代表的谷歌公司在NIST評測中取得了其他單位難以撼動的優勢地位。他這樣做,也是利用了NIST評測規則中的一個不太合理的規定。

在NIST評測中,有兩類項目:受限語料項目和不受限語料項目。在受限語料項目中,參評者只能使用評測組織者提供的訓練語料進行訓練。而在不受限語料項目中,參評者可以使用任何語料進行訓練。研究人員一般比較關注受限語料項目的評測,因為只有在語料受限的情況下,參評單位之間的結果才是可比的。大家比的是算法的好壞,而不是數據的規模和質量。但NIST評測規則不太合理的地方在于,對于受限語料項目,NIST評測只限定了用于訓練翻譯模型的雙語語料必須受限,但對于訓練語言模型的單語語料卻沒有任何限制。這使得谷歌通過這種方式訓練出來的語言模型也可以參加NIST的受限語料項目評測。但他這種做法也遭到了越來越多研究人員的質疑,也許作為谷歌公司的企業行為,這樣做是無可非議的,但作為研究人員來說,他這么做對其他研究人員來說,無疑是不公平的。另外,歐赫到谷歌以后,雖然系統做得非常強大,但他現在已經很少發表論文,通常只是在大會上做一些特邀報告。這樣做的原因可能是因為谷歌公司要保守商業秘密吧。但這無疑也是讓人覺得非常遺憾的。好在統計機器翻譯領域現在人才輩出,出現了很多新的重量級人物,大家并不會因此感到寂寞。



dm520