互聯(lián)網(wǎng)搜索的未來

          Posted on 2007-11-08 18:03 yukui 閱讀(131) 評論(0)  編輯  收藏
                 微軟帝國的締造者比爾-蓋茨(Bill Gates)曾寫過一本在當(dāng)時(shí)轟動一時(shí)的書——《未來之路》,他在這本276頁的書中預(yù)測了微軟乃至整個(gè)科技產(chǎn)業(yè)未來的走勢。十年后,人們又一次開始對科技產(chǎn)業(yè)的未來展開了預(yù)測,不過這一次預(yù)測完全集中在蓋茨10年前沒有預(yù)測到的重要產(chǎn)業(yè)領(lǐng)域:搜索引擎。2006年5月19日和20日,雅虎歐洲研究中心和Universitat Pompeu Fabrah大學(xué)網(wǎng)絡(luò)搜索研究組合辦的“互聯(lián)網(wǎng)搜索的未來”(Future of Web Search)研討會在西班牙召開,來自17個(gè)國家的150名搜索前沿的探索者們濟(jì)濟(jì)一堂,對未來搜索的各種主題進(jìn)行了展望。

          著名搜索專家、智利科學(xué)家Ricardo Baeza-Yates在會上作了《互聯(lián)網(wǎng)查詢詞挖掘的應(yīng)用》(Applications of Mining Web Queries)的主題報(bào)告。今年1月,Ricardo正式加盟雅虎,負(fù)責(zé)雅虎在歐洲及拉美的研發(fā)中心。他與Berthier Ribeiro-Neto曾一起合作編寫了《現(xiàn)代信息檢索》(Modern Information Retrieval)一書,成為信息檢索領(lǐng)域的經(jīng)典教科書而廣泛流傳。Ricardo在加盟雅虎前是智利大學(xué)計(jì)算機(jī)科學(xué)系教授,同時(shí)也是世界上多所大學(xué)的客座教授,被公認(rèn)為信息檢索領(lǐng)域少數(shù)幾位頂級專家之一。在這份報(bào)告中,他介紹了對用戶搜索時(shí)使用的關(guān)鍵詞進(jìn)行分析后的各種應(yīng)用:通過對查詢詞的聚類,借此了解用戶搜索的動機(jī),從而可以向用戶推薦更好的查詢詞,或者對搜索結(jié)果的相關(guān)性進(jìn)行改進(jìn),或者根據(jù)查詢詞對用戶點(diǎn)擊的網(wǎng)頁進(jìn)行分類。

          另一位雅虎搜索研究專家Andrei Broder作了主題報(bào)告:《從信息檢索到信息推送》(From query based Information Retrieval to context driven Information Supply)的報(bào)告。大家對于Andrei可能并不陌生,搜索日志在此前曾刊登了《對話Andrei Broder》系列文章123,初步接觸了他對未來“沒有搜索框的搜索”的一些暢想。

          點(diǎn)擊放大


          Andrei認(rèn)為互聯(lián)網(wǎng)的搜索發(fā)展可以分成四個(gè)階段。第一個(gè)階段是1994年到1997年,當(dāng)時(shí)的搜索引擎都采用的是傳統(tǒng)信息檢索方法,只使用網(wǎng)頁自身帶有的文字信息(例如:詞出現(xiàn)的頻率,網(wǎng)頁內(nèi)容的語言等),比較典型的搜索引擎包括Altavista、Excite、Lycos等。1998年后,進(jìn)入第二個(gè)階段,搜索引擎開始大量采用網(wǎng)頁之外的信息,包括各種超鏈分析算法、用戶點(diǎn)擊的跟蹤和鏈接文字(Anchor Text)的應(yīng)用等,該階段搜索引擎代表是Google和Inktomi。目前我們正處在第三個(gè)階段,搜索引擎開始關(guān)注用戶查詢詞背后的需求,而不再是查詢詞本身,這包括語義的分析,相關(guān)內(nèi)容的整合,對用戶的查詢提供更多幫助(例如:友好的界面、拼寫糾錯(cuò)、相關(guān)搜索、搜索提示等)。2000年,在《互聯(lián)網(wǎng)搜索的分類》這篇論文中,Andrei在分析后把人們上網(wǎng)搜索的需求分成三類:對信息的需求(例如:找新聞、找評論、找帖子等)、對導(dǎo)航的需求(找某個(gè)特定網(wǎng)站)和對交易的需求(例如:下載軟件、在線購物、訂機(jī)票等)。第三代搜索引擎必須根據(jù)用戶的需求,進(jìn)行結(jié)果的優(yōu)化,比較典型的例子是雅虎快捷展現(xiàn)(Yahoo Shortcuts)。例如:搜索“北京 天氣”時(shí),除相關(guān)網(wǎng)頁搜索結(jié)果外,還會顯示當(dāng)前北京的天氣情況。

          點(diǎn)擊放大


          第三代搜索引擎大量利用與時(shí)空相關(guān)的Context信息,如:地理位置、查詢歷史、個(gè)人檔案等。通過對這些相關(guān)信息的利用,可幫助篩選出不合適的結(jié)果,結(jié)果的排序可以更加個(gè)性化。隨著Context信息的不斷發(fā)展,Andrei認(rèn)為到第四代搜索引擎后,用戶的搜索將不在需要他們輸入查詢詞,而是搜索引擎可以根據(jù)用戶的行為和Context信息,主動進(jìn)行信息的推送(Information Supply)。

          點(diǎn)擊放大


          其實(shí),在目前的互聯(lián)網(wǎng)上,已經(jīng)有一些信息推送的例子。例如,對周期性需求的信息推送,像訂閱服務(wù)(電子郵件、RSS等)或者新聞郵件提示等。再比如對一些臨時(shí)性需求的信息推送,像電子商務(wù)(推送商品的配件信息、用戶評論和相關(guān)商品信息等)、在線旅游(推送機(jī)票、酒店、租車等信息)以及上下文相關(guān)的廣告推送。在Andrei看來,選擇顯示什么廣告時(shí)不僅僅要看查詢的關(guān)鍵詞,還要針對用戶的背景、查詢的歷史、用戶所處的地理位置(大到國家,小到街道)和廣告的顯示歷史進(jìn)行優(yōu)化匹配。在這個(gè)過程中,信息推送引擎(ISE)將對三個(gè)信息源要素進(jìn)行匹配,即對用戶(如:注冊的檔案和背景信息)、活動(如:用戶操作歷史和瀏覽網(wǎng)頁的內(nèi)容)和廣告(如:廣告的統(tǒng)計(jì))進(jìn)行匹配,排序顯示最合適的廣告。當(dāng)用戶執(zhí)行了相應(yīng)操作(如:點(diǎn)擊某條廣告)后,此信息會反饋到三個(gè)信息源以及信息推送引擎,以便進(jìn)行下一次的廣告推送,從而周而復(fù)始,成為閉環(huán)。雅虎今年7月推出的搜索廣告系統(tǒng)Panama和微軟計(jì)劃開發(fā)的adCenter(微軟10年后終于意識到了搜索引擎的重要性),原理大體與此類似。

          整個(gè)研討會共有17個(gè)主題報(bào)告,除上面兩個(gè)外,還包括:鏈接型Spam的對策P2P搜索的相關(guān)性搜索的個(gè)性化用于語義搜索的XML信息檢索等,喜歡搜索的朋友可以下載后慢慢研讀(都是英文的)。

          點(diǎn)擊放大

          會議期間,還舉行了雅虎在巴塞羅納研究中心的開幕儀式。上圖(由左到右)為身材魁梧的大胡子Richardo和雅虎西班牙負(fù)責(zé)人Javier Rodriguez Zapatero、雅虎美國研究院副總裁Ron Brachman在開幕式上的合影。


          只有注冊用戶登錄后才能發(fā)表評論。


          網(wǎng)站導(dǎo)航:
           

          posts - 131, comments - 12, trackbacks - 0, articles - 32

          Copyright © yukui

          主站蜘蛛池模板: 铜梁县| 迭部县| 丰都县| 留坝县| 黎川县| 通山县| 江达县| 无棣县| 韶关市| 萍乡市| 弋阳县| 璧山县| 肥东县| 吉安县| 托克逊县| 阆中市| 南陵县| 青冈县| 佛坪县| 揭西县| 隆化县| 甘孜县| 天津市| 济阳县| 谢通门县| 额济纳旗| 亳州市| 安溪县| 大渡口区| 新晃| 天气| 天台县| 建湖县| 宁化县| 崇义县| 孝义市| 化隆| 儋州市| 仙桃市| 遂昌县| 阿拉尔市|