傳統(tǒng)搜索引擎的工作原理:
          1)從互聯(lián)網(wǎng)上抓取網(wǎng)頁
          利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的Spider系統(tǒng)程序,自動訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL爬到其它網(wǎng)頁,重復(fù)這過程,并把爬過的所有網(wǎng)頁收 集回來。
          2) 建立索引數(shù)據(jù)庫
          由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的所有關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大 小、與其它網(wǎng)頁的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁針對頁面文字中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用 這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。
          3)在索引數(shù)據(jù)庫中搜索排序
          當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。因?yàn)樗邢嚓P(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)度早已算好,所以只需按 照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。最后,由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。

          傳統(tǒng)的搜索引擎一般使用兩種技術(shù)來實(shí)現(xiàn)信息檢索:
          1.使用網(wǎng)站分類技術(shù)實(shí)現(xiàn)目錄檢索,即把網(wǎng)站進(jìn)行樹狀的歸類,登陸的網(wǎng)站屬于至少一個(gè)類別,對每個(gè)站點(diǎn)都有簡略的描述。Yahoo采用了這種方法。為了分 類科學(xué)準(zhǔn)確,需要有一支各科人才組成的維護(hù)隊(duì)伍。
          2.使用全文檢索技術(shù)。全文檢索技術(shù)處理的對象是文本,它能夠?qū)Υ罅课臋n建立由字(詞)到文檔的倒排索引,在此基礎(chǔ)上,用戶使用關(guān)鍵詞來對文檔進(jìn)行查詢 時(shí),系統(tǒng)將給用戶返回該關(guān)鍵詞的網(wǎng)頁。
          posted on 2010-04-02 09:58 Ying-er 閱讀(319) 評論(0)  編輯  收藏

          只有注冊用戶登錄后才能發(fā)表評論。


          網(wǎng)站導(dǎo)航:
           

          填坑女俠  

          <2010年4月>
          28293031123
          45678910
          11121314151617
          18192021222324
          2526272829301
          2345678

          常用鏈接

          留言簿(4)

          隨筆分類

          隨筆檔案

          友情鏈接

          各人常用鏈接

          搜索

          •  

          積分與排名

          • 積分 - 194073
          • 排名 - 296

          最新評論

          閱讀排行榜

          主站蜘蛛池模板: 横峰县| 金塔县| 大理市| 双江| 筠连县| 宾阳县| 阿拉善盟| 广德县| 姚安县| 鲜城| 南靖县| 南川市| 青海省| 陇西县| 鹿泉市| 德保县| 大方县| 南部县| 千阳县| 陇西县| 大荔县| 平南县| 新野县| 衢州市| 西宁市| 海丰县| 龙江县| 金沙县| 丽水市| 托里县| 淮阳县| 宁蒗| 垦利县| 石河子市| 福安市| 谷城县| 卓尼县| 肇源县| 萝北县| 巨野县| 麻城市|