iNeo

            BlogJava :: 首頁 :: 聯(lián)系 :: 聚合  :: 管理
            30 Posts :: 8 Stories :: 2 Comments :: 0 Trackbacks
          Google工程師詳述Google的搜索結(jié)果排列算法
           

          本文作者馬特-卡茲(Matt Cutts)是Google公司品質(zhì)管理部門的軟件工程師。他的工作主要是給好的網(wǎng)站評定等級,并負(fù)責(zé)開發(fā)阻止虛假或垃圾網(wǎng)站出現(xiàn)在Google搜索結(jié)果上的技術(shù)。

          圖書館管理員們提出最多的問題之一是:“對于什么樣的結(jié)果應(yīng)該位于搜索列表的最上方,Google是如何選擇的?”現(xiàn)在品質(zhì)工程師馬特-卡茲介紹了快速入門的知識,解釋了Google是如何在網(wǎng)上爬行和索引,以及如何評定搜索結(jié)果等級的。馬特也向?qū)W校圖書館管理員提出建議,告訴他們?nèi)绾屋o導(dǎo)學(xué)生。

          爬行和索引

          在你瀏覽包含了Google搜索結(jié)果的網(wǎng)頁之前,要發(fā)生很多事情。首先是在萬維網(wǎng)數(shù)以十億計的網(wǎng)頁上爬行和索引,這個工作是由Googlebot完成的,它負(fù)責(zé)與全球的網(wǎng)絡(luò)服務(wù)器連接以收集文件。爬行不是真的在網(wǎng)上漫游,而是訪問網(wǎng)絡(luò)服務(wù)器返回到一個特定的網(wǎng)頁上,接著掃描該網(wǎng)頁建立超鏈接并為每一個網(wǎng)頁編上號碼。爬行可收集大量的文件,但這些文件還不能直接用于搜索。

          如果沒有索引,在你想查詢?nèi)纭癱ivil war”(南北戰(zhàn)爭)等內(nèi)容時,Google的服務(wù)器將不得不在你每次搜索時閱讀每一份文件的內(nèi)容。因此第二個步驟是要建立一個索引,這樣就需要“轉(zhuǎn)換” 爬行所獲得的數(shù)據(jù)。為了不必在每一份文件上掃描每一個單詞,就需要在數(shù)據(jù)上做些文章,以便顯示包含了特定單詞的所有文件。例如,假設(shè)單詞“civil”在編號為3、8、22、56、68和92的文件上出現(xiàn)過,而單詞“war”出現(xiàn)編號為2、8、15、22、68和77的文件上。

          一旦建立了索引,就開始對文件進行等級評定并確定它們的相關(guān)性。假如某個人上Google搜索并輸入“civil war”,為呈現(xiàn)和評價搜索結(jié)果需要做兩件事:一是查找包含了用戶提問的網(wǎng)頁;二是按照相關(guān)性排定匹配網(wǎng)頁的位置。Google已經(jīng)開發(fā)出一個有趣的技術(shù)可加速第一步驟的過程:不是將所有索引存儲在一臺電腦上,而是使用數(shù)百臺電腦做這種工作。由于任務(wù)被分配到很多電腦上,使得查詢答案更為迅速。

          為更加形象地描述這個過程,可以設(shè)想下一本30頁厚書的索引。如果一個人在索引中查找數(shù)頁的信息,那么每一次搜索都至少需要花幾秒鐘的時間;但如果你將索引的每一頁分給不同的人去查找呢?三十個人分別查找索引的不同部分,要比一個人獨自查找快的多。同樣,Google也是將數(shù)據(jù)分配到各臺電腦上以便可以更快地查找文件。

          如何查找包含了用戶提問的網(wǎng)頁?讓我們返回到上面舉的“civil war”例子。單詞“civil”在編號為3、8、22、56、68和92的文件上,單詞“war”在編號為2、8、15、22、68和77的文件上,我們可以在網(wǎng)頁上顯示文件并尋找包含兩個單詞的文件(從下表中可以看出是8、22和68號文件)。

          單詞civil 3 8 22 56 68 92

          單詞war 2 8 15 22 68 77

          兩個單詞都出現(xiàn) 8 22 68

          包含了一個單詞的文件列表被稱為“文件標(biāo)識列表”,查找包含兩個單詞的文件被稱為“文件標(biāo)識列表的交集”。

          評定搜索結(jié)果

          有了包含用戶提問的網(wǎng)頁后,就該按照相關(guān)性評定網(wǎng)頁了。Google使用了很多技術(shù),其中 PageRank算法是最有名的。PageRank評定的是兩種事情:從網(wǎng)站到某一網(wǎng)頁有多少個鏈接,提供鏈接的網(wǎng)站的排名。使用PageRank,來自 CNN和紐約時報網(wǎng)站的鏈接的價值,是很多不太有名網(wǎng)站的兩倍。

          除了PageRank外Google還使用了很多其他技術(shù),例如一份文件所包含的 “civil”和“war”兩個單詞靠的很近,就比只使用了“war”單詞的包含“Revolutionary War”(獨立戰(zhàn)爭)的文件相關(guān)性要大的多。另外在題目中出現(xiàn)了“civil war”的網(wǎng)頁,它的相關(guān)性就比題目為“19th Century American Clothing”(19世紀(jì)的美國服裝)要重要的多。同樣如果“civil war”在網(wǎng)頁上出現(xiàn)了數(shù)次,比出現(xiàn)一次的網(wǎng)頁要相關(guān)的多。

          Google的目的是要找到知名度和相關(guān)性都大的網(wǎng)頁。如果兩個網(wǎng)頁出現(xiàn)匹配提問的信息數(shù)量幾乎一樣,我們常常會選擇更有名網(wǎng)站的鏈接。但如果其他方面表明一個網(wǎng)頁更為相關(guān),也會選擇更少鏈接或更低排名的網(wǎng)頁。例如,一個網(wǎng)頁全篇都是講“南北戰(zhàn)爭”的內(nèi)容,會比只是略微提到“南北戰(zhàn)爭”的網(wǎng)頁更為有用,即使這個網(wǎng)頁是出現(xiàn)不太有名的網(wǎng)站上。一旦我們有了文件的列表和分值,就會選擇最高分值、最匹配的文件。

          Google從包含了提問單詞的每一份文件中提取幾句話作為摘要顯示,接著將排好的URLs和摘要顯示在搜索結(jié)果上。正如你所知道的運行一個搜索器需要大量的計算資源。每一次搜索需要500臺以上的電腦一起工作,搜索的時間還不到半秒鐘。



          Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=559502

          posted on 2005-12-23 14:43 只牽這只狗 閱讀(210) 評論(0)  編輯  收藏 所屬分類: Search

          只有注冊用戶登錄后才能發(fā)表評論。


          網(wǎng)站導(dǎo)航:
           
          主站蜘蛛池模板: 景泰县| 凯里市| 禄劝| 容城县| 留坝县| 唐山市| 六安市| 黔江区| 乐昌市| 南澳县| 南康市| 遵义市| 于都县| 收藏| 平凉市| 南澳县| 陵川县| 永兴县| 长岭县| 米脂县| 延吉市| 平武县| 如东县| 宣城市| 定边县| 大名县| 宝清县| 宜宾县| 哈巴河县| 东光县| 民和| 故城县| 抚松县| 阿拉善盟| 沙坪坝区| 滕州市| 六安市| 赞皇县| 乌什县| 新龙县| 台州市|