隨筆-14  評(píng)論-25  文章-1  trackbacks-0

          from http://www.code365.com/web/122/Article/17927.Asp


          Thomas Bayes,一位偉大的數(shù)學(xué)大師,他的理論照亮了今天的計(jì)算領(lǐng)域,和他的同事們不同:他認(rèn)為上帝的存在可以通過(guò)方程式證明,他最重要的作品被別人發(fā)行,而他已經(jīng)去世241年了。

          18世紀(jì)牧師們關(guān)于概率的理論成為應(yīng)用發(fā)展的數(shù)學(xué)基礎(chǔ)的一部分。

          搜索巨人Google和Autonomy,一家出售信息恢復(fù)工具的公司,都使用了貝葉斯定理(Bayesian principles)為數(shù)據(jù)搜索提供近似的(但是技術(shù)上不確切)結(jié)果。研究人員還使用貝葉斯模型來(lái)判斷癥狀和疾病之間的相互關(guān)系,創(chuàng)建個(gè)人機(jī)器人,開發(fā) 能夠根據(jù)數(shù)據(jù)和經(jīng)驗(yàn)來(lái)決定行動(dòng)的人工智能設(shè)備。

          雖然聽起來(lái)很深?yuàn)W,而這個(gè)原理的意思--大致說(shuō)起來(lái)--卻很簡(jiǎn)單:某件事情發(fā)生的概率大致可以由它過(guò)去發(fā)生的頻率近似地估計(jì)出來(lái)。研究人員把這個(gè)原理應(yīng)用在每件事上,從基因研究到過(guò)濾電子郵件。

          在明尼蘇達(dá)州大學(xué)的網(wǎng)站上能夠找到一份詳細(xì)的數(shù)學(xué)概要。而在Gametheory.net上的一個(gè)Bayes Rule Applet程序讓你能夠回答諸如“如果你測(cè)試某種疾病,有多大風(fēng)險(xiǎn)”之類的問題。

          貝葉斯理論的一個(gè)出名的倡導(dǎo)者就是微軟。該公司把概率用于它的Notification Platform。該技術(shù)將會(huì)被內(nèi)置到微軟未來(lái)的軟件中,而且讓計(jì)算機(jī)和蜂窩電話能夠自動(dòng)地過(guò)濾信息,不需要用戶幫助,自動(dòng)計(jì)劃會(huì)議并且和其他人聯(lián)系。

          如果成功的話,該技術(shù)將會(huì)導(dǎo)致“context server”--一種電子管家的出現(xiàn),它能夠解釋人的日常生活習(xí)慣并在不斷變換的環(huán)境中組織他們的生活。

          “Bayes的研究被用于決定我應(yīng)該怎樣最好地分配計(jì)算和帶寬,” Eric Horvitz表示,他是微軟研究部門Adaptive Systems & Interaction Group的高級(jí)研究員和分組管理者。“我個(gè)人相信在這個(gè)不確定的世界里,你不能夠知道每件事,而概率論是任何智能的基礎(chǔ)。”

          到今年年底,Intel也將發(fā)布它自己的基于貝葉斯理論的工具包。一個(gè)關(guān)于照相機(jī)的實(shí)驗(yàn)警告醫(yī)生說(shuō)病人可能很快遭受痛苦。在本周晚些時(shí)候在該公司的Developer Forum(開發(fā)者論壇)上將討論這種發(fā)展。

          雖然它在今天很流行,Bayes的理論并不是一直被廣泛接受的:就在10年前,Bayes研究人員還在他們的專業(yè)上躊躇不前。但是其后,改進(jìn)的數(shù)學(xué)模型,更快的計(jì)算機(jī)和實(shí)驗(yàn)的有效結(jié)果增加了這種學(xué)派新的可信程度。

          “問題之一是它被過(guò)度宣傳了,” Intel微處理器實(shí)驗(yàn)室的應(yīng)用軟件和技術(shù)管理經(jīng)理Omid Moghadam表示。“事實(shí)上,能夠處理任何事情的能力并不存在。真正的執(zhí)行在過(guò)去的10年里就發(fā)生了。”

          Bayes啞元
          Bayes的理論可以粗略地被簡(jiǎn)述成一條原則:為了預(yù)見未來(lái),必須要看看過(guò)去。Bayes的理論表示未來(lái)某件事情發(fā)生的概率可以通過(guò)計(jì)算它過(guò)去發(fā)生的頻率來(lái)估計(jì)。一個(gè)彈起的硬幣正面朝上的概率是多少?實(shí)驗(yàn)數(shù)據(jù)表明這個(gè)值是50%。

          “Bayes表示從本質(zhì)上說(shuō),每件事都有不確定性,你有不同的概率類型,”斯坦佛的管理科學(xué)和工程系(Department of Management Science and Engineering at Stanford)的教授Ron Howard表示。

          例如,假設(shè)不是硬幣,一名研究人員把塑料圖釘往上拋,想要看看它釘頭朝上落地的概率有多大,或者有多少可能性是側(cè)面著地,而釘子是指向什么方向的。形狀,成型過(guò)程中的誤差,重量分布和其他的因素都會(huì)影響該結(jié)果。

          Bayes技術(shù)的吸引力在于它的簡(jiǎn)單性。預(yù)測(cè)完全取決于收集到的數(shù)據(jù)--獲得的數(shù)據(jù)越多,結(jié)果就越好。另一個(gè)優(yōu)點(diǎn)在于Bayes模型能夠自我糾正,也就是說(shuō)數(shù)據(jù)變化了,結(jié)果也就跟著變化。

          概率論的思想改變了人們和計(jì)算機(jī)互動(dòng)的方式。“這種想法是計(jì)算機(jī)能夠更象一個(gè)幫助者而不僅僅是一個(gè)終端設(shè)備,” Peter Norvig表示。他是Google的安全質(zhì)量總監(jiān)。他說(shuō)“你在尋找的是一些指導(dǎo),而不是一個(gè)標(biāo)準(zhǔn)答案。”

          從這種轉(zhuǎn)變中,研究獲益非淺。幾年前,所謂的Boolean搜索引擎的一般使用需要把搜索按照“if, and, or but”的語(yǔ)法進(jìn)行提交,然后去尋找匹配的詞。現(xiàn)在的搜索引擎采用了復(fù)雜的運(yùn)算法則來(lái)搜索數(shù)據(jù)庫(kù),并找出可能的匹配。

          如同圖釘?shù)哪莻€(gè)例子顯示的那樣,復(fù)雜性和對(duì)于更多數(shù)據(jù)的需要可能很快增長(zhǎng)。由于功能強(qiáng)大的計(jì)算機(jī)的出現(xiàn),對(duì)于把好的猜測(cè)轉(zhuǎn)變成近似的輸出所必須的結(jié)果進(jìn)行控制成為可能。

          更重要的是,UCLA的Judea Pearl這樣的研究人員研究出如何讓Bayes模型能夠更好地追蹤不同的現(xiàn)象之間條件關(guān)系的方法,這樣能夠極大地減少計(jì)算量。

          例如,對(duì)于人口進(jìn)行大規(guī)模的關(guān)于肺癌成因的調(diào)查可能會(huì)發(fā)現(xiàn)它是一種不太廣泛的疾病,但是如果局限在吸煙者范圍內(nèi)進(jìn)行調(diào)查就可能會(huì)發(fā)現(xiàn)一些關(guān)聯(lián)性。對(duì)于肺癌患者進(jìn)行檢查能夠幫助調(diào)查清楚習(xí)慣和這種疾病之間的關(guān)系。

          “每一個(gè)單獨(dú)的屬性或者征兆都可能取決于很多不同的事情,但是直接決定它的卻是為數(shù)不多的事情,”斯坦佛計(jì)算機(jī)科學(xué)系(computer science department at Stanford)的助理教授Daphne Koller表示。“在過(guò)去的15年左右的時(shí)間里,人們?cè)诠ぞ叻矫孢M(jìn)行了改革,這讓你能夠描繪出大量人群的情況。”

          和其他一些項(xiàng)目一樣,Koller是使用概率論技術(shù)來(lái)更好地把病癥和疾病聯(lián)系起來(lái),并把遺傳基因和特定的細(xì)胞現(xiàn)象聯(lián)系起來(lái)。

          記錄演講
          一項(xiàng)相關(guān)的技術(shù),名為Hidden Markov模型,讓概率能夠預(yù)測(cè)次序。例如,一個(gè)演講識(shí)別應(yīng)用知道經(jīng)常在“q”之后的字母是“u”。除了這些,該軟件還能夠計(jì)算“Qagga”(一種滅絕了的斑馬的名稱)一詞出現(xiàn)的概率。

          概率技術(shù)已經(jīng)內(nèi)置在微軟的產(chǎn)品中了。Outlook Mobile Manage是一個(gè)能夠決定什么時(shí)候往移動(dòng)設(shè)備上發(fā)出一封內(nèi)勤的電子郵的軟件。它是從Priorities發(fā)展而來(lái)的,Priorities是微軟在 1998年公布的一個(gè)實(shí)驗(yàn)系統(tǒng)。Windows XP的故障檢修引擎也依賴于概率計(jì)算。

          隨著該公司的Notification Platform開始內(nèi)置在產(chǎn)品中,在未來(lái)的一年中會(huì)有更多的應(yīng)用軟件發(fā)布,微軟的Horvitz這樣表示。

          Notification Platform的一個(gè)重要組成部分名為Coordinate,它從個(gè)人日歷,鍵盤,傳感器照相機(jī)以及其他來(lái)源收集數(shù)據(jù),來(lái)了解某個(gè)人生活和習(xí)慣。收集的 數(shù)據(jù)可能包括到達(dá)的時(shí)間,工作時(shí)間和午餐的時(shí)間長(zhǎng)度,哪種類型的電話或電子郵件被保存,而哪些信息被刪除,在某天的特定時(shí)間里鍵盤被使用的頻率,等等。

          這些數(shù)據(jù)可以被用來(lái)管理信息流和使用者收到的其他信息。例如,如果一位經(jīng)理在下午2:40發(fā)送了一封電子郵件給一名員工, Coordinate可以檢查該員工的日歷程序,然后發(fā)現(xiàn)他在下午2:00有一個(gè)會(huì)議。該程序還可以掃描關(guān)于該員工習(xí)慣的數(shù)據(jù),然后發(fā)現(xiàn)該員工通常會(huì)在有 會(huì)議之后大約一個(gè)小時(shí)才重新使用鍵盤。該程序可能還能夠發(fā)現(xiàn)該名員工通常會(huì)在5分鐘之內(nèi)回復(fù)該經(jīng)理的電子郵件。根據(jù)上面這些數(shù)據(jù),該軟件能夠估計(jì)出該員工 可能至少在20分鐘之內(nèi)不可能回復(fù)該電子郵件,該軟件可能會(huì)把這條信息發(fā)送到該員工的手提電話上。同時(shí),該軟件可能會(huì)決定不把別人的電子郵件也轉(zhuǎn)發(fā)出去。

          “我們正在平衡以打攪你為代價(jià)所獲得信息的價(jià)值,” Horvitz表示。使用這個(gè)軟件,他堅(jiān)持道,“能夠讓更多的人跟上事情的發(fā)展,而不被大量的信息所淹沒。”

          Horvitz補(bǔ)充道,隱私和對(duì)于這些功能的用戶控制是確定的。呼叫者并不知道為什么一條信息可能會(huì)被優(yōu)先或推遲處理。

          微軟還把Bayes模型使用在其他的一些產(chǎn)品上,包括DeepListener 以及Quartet (語(yǔ)音激活),SmartOOF 以及TimeWave (聯(lián)系控制)。消費(fèi)者多媒體軟件也獲益非淺,Horvitz表示。

          Bayes技術(shù)不僅僅被應(yīng)用在PC領(lǐng)域。在University of Rochester,研究人員發(fā)現(xiàn)一個(gè)人的步伐可以在一步前發(fā)生改變。雖然這種改變對(duì)于人類來(lái)說(shuō)太過(guò)于細(xì)微,一臺(tái)和電腦連接在一起的照相機(jī)可以捕捉并跟蹤 這種動(dòng)作。如果行走異常出現(xiàn),計(jì)算機(jī)就能夠發(fā)出警報(bào)。

          一個(gè)實(shí)驗(yàn)用的安全照相機(jī)采用了同樣的原理:大部分到達(dá)機(jī)場(chǎng)的人都會(huì)在停車以后直接走向目的地,所以如果有人停了車,然后走向另一輛車就不太正常,因此就可能引發(fā)警報(bào)。今年秋天一個(gè)創(chuàng)建Bayes模型和技術(shù)信息的基本引擎將會(huì)公布在Intel的開發(fā)者網(wǎng)站上。

          理論沖突
          雖然該技術(shù)聽起來(lái)簡(jiǎn)單易懂,關(guān)于它的計(jì)算可能卻比較慢。Horvitz回憶說(shuō)他是斯坦佛20世紀(jì)80年代僅有的兩個(gè)概率和人工智能的畢業(yè)生之一。其他所有的人學(xué)習(xí)的是邏輯系統(tǒng),采用的是“if and then”的模式和世界互動(dòng)。

          “概率論那時(shí)候不流行,” Horvitz表示。但是當(dāng)邏輯系統(tǒng)不能夠預(yù)測(cè)所有的意外情況時(shí),潮流發(fā)生了轉(zhuǎn)變。

          很多研究人員開始承認(rèn)人類的決策過(guò)程比原來(lái)想象的要神秘的多。“在人工智能領(lǐng)域存在著文化偏見,” Koller表示。“人們現(xiàn)在承認(rèn)他們并不知道他們的腦子是如何工作的。”

          即便在他的時(shí)代,Bayes發(fā)現(xiàn)他自己置身于主流之外。他于1702年出生于倫敦,后來(lái)他成為了一名Presbyterian minister。雖然他看到了自己的兩篇論文被發(fā)表了,他的理論很有效,但是《Essay Toward Solving a Problem in the Doctrine of Chances》卻一直到他死后的第三年,也就是1764年才被發(fā)表。

          他的王室成員身份一直是個(gè)謎,直到最近幾年,新發(fā)現(xiàn)的一些信件表明他私下和英格蘭其他一些思想家看法一致。

          “就我所知,他從來(lái)沒有寫下貝葉斯定理,” Howard表示。

          神學(xué)家Richard Price和法國(guó)的數(shù)學(xué)家Pierre Simon LaPlace成為了早期的支持者。該理論和后來(lái)George Boole,布爾數(shù)學(xué)之父,的理論背道而馳。George Boole的理論是基于代數(shù)邏輯的,并最終導(dǎo)致了二進(jìn)制系統(tǒng)的誕生。也是皇室成員之一的Boole死于1864年。

          雖然概率的重要性不容置疑,可是關(guān)于它的應(yīng)用的爭(zhēng)論卻沒有停止過(guò)。批評(píng)者周期性地聲稱Bayes模型依賴于主觀的數(shù)據(jù),而讓人類去判斷答案是否正確。而概率論模型沒有完全解決在人類思維過(guò)程中存在的細(xì)微差別的問題。

          “兒童如何學(xué)習(xí)現(xiàn)在還不是很清楚,”IBM研究部門的科學(xué)和軟件副總裁 Alfred Spector這樣表示。他計(jì)劃把統(tǒng)計(jì)學(xué)方法和邏輯系統(tǒng)在他的Combination Hypothesis之中結(jié)合起來(lái)。“我最初相信是統(tǒng)計(jì)學(xué)的范疇,但是從某方面說(shuō),你將會(huì)發(fā)現(xiàn)不僅僅是統(tǒng)計(jì)學(xué)的問題。”

          但是,很有可能概率論是基礎(chǔ)。

          “這是個(gè)基礎(chǔ),” Horvitz表示。“它被忽略了一段時(shí)間,但是它是推理的基礎(chǔ)。”

          posted on 2006-05-30 12:51 混沌中立 閱讀(437) 評(píng)論(0)  編輯  收藏 所屬分類: 非技術(shù)
          主站蜘蛛池模板: 南涧| 鹤壁市| 桃园市| 绥中县| 浦江县| 绥德县| 长武县| 沛县| 巴青县| 唐河县| 凤城市| 北辰区| 集安市| 岗巴县| 太保市| 贵定县| 天长市| 遂川县| 闻喜县| 汝阳县| 呼和浩特市| 临澧县| 梅河口市| 韶山市| 咸宁市| 屯留县| 滦南县| 万年县| 永胜县| 都兰县| 吉林市| 马鞍山市| 新津县| 河东区| 阿图什市| 苗栗市| 博湖县| 呼和浩特市| 平遥县| 易门县| 深圳市|