欧美一区二区三区视频,在线精品亚洲一区二区不卡,亚洲一区欧美一区

據英國《星期日泰晤士報》報道，Google正在研發能夠即時翻譯外語的手機軟件，就像真人翻譯一樣，它能夠聽懂一組一組說話者的聲音，幾乎立即翻譯為聽話者的語言。這個軟件如果研發成功，將有望改變全球說各種不同語言（據估計目前世界在使用的語言有6000 多種）的人之間的溝通方式，人們也不再需要為了與人口頭交流而去學習外語。

該系統將基于Google已有的語音識別和自動翻譯技術。后者通過掃描數百萬種多語網站及文件來不斷改進。到目前為止，這套系統支持的語言有 52 種，并剛在上周加入支持海地官方語言之一克里奧爾語。

Google翻譯服務的負責人Franz Och說：語言對譯應該可行，而且在數年內能夠實現。當然，要想非常流暢，需要把高準確度的機器翻譯和高準確度的語音識別結合起來。

由于Google有龐大的網站及譯文數據庫，而且用戶也不斷增多，它的翻譯技術不再使用以語言文法為基礎的規則，而是能夠不斷改進，被用得越多，也就越準確。

Franz Och表示，相比機器翻譯，語音識別的困難更大，因為即使說同一種語言，每人的聲線、口音及高低音也不同，但通常手機也只有一人使用，相信只要軟件習慣機主的聲音，準確度便會提升。

【人物簡介】

（轉自我愛自然語言處理）

統計機器翻譯成長的這二十年來，最具傳奇色彩的人物當首推Franz Josef Och。

從2002年起，在美國國防部高等研究計劃局(DARPA)資助的項目TIDES6的框架下，美國國家標準和技術研究所出面組織了NIST機器翻譯評測。NIST評測每年舉辦一次，主要考察的語言對是漢語到英語以及阿拉伯語到英語，并且只對各參評系統的機器翻譯結果的質量進行評測，對系統本身的其他方面不做評價。

在NIST評測中有一個頗具傳奇色彩的人物，就是畢業于德國亞琛工業大學的博士生弗朗茨.約瑟夫.歐赫（Franz Joseph Och）。在1999年約翰霍普金斯大學夏季研討班（JHU Summer Workshop 1999）上，他開發出了著名的IBM模型訓練工具Giza。在2002年NIST評測中，取得第一名的亞琛工業大學的機器翻譯系統就是由他開發的。歐赫 2002年從亞琛工業大學畢業后進入美國南加州大學信息科學研究所(ISI/USC)工作，同時作為Language Weaver公司的顧問，后來于2004年加盟了谷歌（Google）公司。

他所到的每一個地方都穩拿當年NIST機器翻譯評測的第一名。尤其是2005年的NIST評測中，他所在的谷歌公司開發的漢英機器翻譯系統取得了0.35的BLEU值，比第二名的南加州大學(即他原來所在的單位)的系統的性能提高了近5個百分點。2005年在漢語到英語方向取得前四名的單位分別是谷歌公司、美國南加州大學信息科學研究所(ISI/USC)、馬里蘭大學(UMD)和德國亞琛工業大學(RWTH)；2006年漢英翻譯的這個排名變成美國南加州大學信息科學研究所（ISI/USC）、谷歌公司、美國Language Weaver公司（LW）和德國亞琛工業大學。其中2006年的這四個研究單位的技術都有一定的淵源關系，全部都是歐赫曾經或者正在工作的地方。在2006年評測中，除了漢英機器翻譯的受限語料項目，其他所有項目的第一名都是谷歌公司。

歐赫不僅僅是在評測中成績絕對領先，而且在研究方面也是非常出色的。他這些年來發表的很多論文，包括博士論文，都成了統計機器翻譯研究領域的經典，被人廣泛引用和驗證。更難得的是，他對自己的研究工作持一種非常開放的態度，一點都不保守。目前統計機器翻譯研究領域一些著名的開源軟件，如IBM模型訓練工具Giza++、最大熵模型訓練工具YASMET都是他開發的。這一切顯示了歐赫不愧為統計機器翻譯研究的第一人。

歐赫是統計方法的忠實信徒。偉大的希臘科學家阿基米德（Archimedes）說過：只要給我一個支點，我就可以移動地球。（Give me a place to stand on, and I will move the world.）。歐赫模仿阿基米德的口吻說：只要給我充分的并行語言數據，那么，對于任何的兩種語言，我就可以在幾小時之內構造出一個機器翻譯系統。（原話是Give me enough parallel data, and you can have translation system for any two languages in a matter of hours.。）在歐赫的研究中，數據規?？偸堑谝晃坏?。他也嘗試過使用一些句法知識，但他的最后結論是，句法知識對統計機器翻譯毫無用處，甚至有反作用。因此，歐赫總是試圖用最簡單的模型和最大量的數據取勝。

到谷歌公司以后，谷歌公司對海量數據的駕馭能力使得歐赫如魚得水。他把谷歌公司在Internet上采集的所有英語文檔都用來訓練英語的語言模型，動用了谷歌公司數千個CPU組成的計算機集群進行計算。如此巨大的語言模型，使得他所代表的谷歌公司在NIST評測中取得了其他單位難以撼動的優勢地位。他這樣做，也是利用了NIST評測規則中的一個不太合理的規定。

在NIST評測中，有兩類項目：受限語料項目和不受限語料項目。在受限語料項目中，參評者只能使用評測組織者提供的訓練語料進行訓練。而在不受限語料項目中，參評者可以使用任何語料進行訓練。研究人員一般比較關注受限語料項目的評測，因為只有在語料受限的情況下，參評單位之間的結果才是可比的。大家比的是算法的好壞，而不是數據的規模和質量。但NIST評測規則不太合理的地方在于，對于受限語料項目，NIST評測只限定了用于訓練翻譯模型的雙語語料必須受限，但對于訓練語言模型的單語語料卻沒有任何限制。這使得谷歌通過這種方式訓練出來的語言模型也可以參加NIST的受限語料項目評測。但他這種做法也遭到了越來越多研究人員的質疑，也許作為谷歌公司的企業行為，這樣做是無可非議的，但作為研究人員來說，他這么做對其他研究人員來說，無疑是不公平的。另外，歐赫到谷歌以后，雖然系統做得非常強大，但他現在已經很少發表論文，通常只是在大會上做一些特邀報告。這樣做的原因可能是因為谷歌公司要保守商業秘密吧。但這無疑也是讓人覺得非常遺憾的。好在統計機器翻譯領域現在人才輩出，出現了很多新的重量級人物，大家并不會因此感到寂寞。

dm520

發表于 2010-02-09 10:27 dm520 閱讀(167) 評論(0) 編輯收藏

常用鏈接

留言簿(2)

隨筆分類(34)

隨筆檔案(38)

文章分類(45)

文章檔案(83)

新聞分類(19)

新聞檔案(20)

相冊

收藏夾(2)

技術blog

最新隨筆

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜

Google研發手機翻譯軟件人類有望無需學外語