posts - 19, comments - 53, trackbacks - 0, articles - 283
            BlogJava :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理

          網(wǎng)絡(luò)爬蟲原理

          Posted on 2010-02-02 22:29 Gavin.lee 閱讀(471) 評論(0)  編輯  收藏 所屬分類: 經(jīng)驗&常識
          搜索引擎使用網(wǎng)絡(luò)爬蟲尋找網(wǎng)絡(luò)內(nèi)容,網(wǎng)絡(luò)上的HTML文檔使用超鏈接連接了起來,就像織成了一張網(wǎng),網(wǎng)絡(luò)爬蟲也叫網(wǎng)絡(luò)蜘蛛,順著這張網(wǎng)爬行,每到一個網(wǎng)頁就用抓取程序?qū)⑦@個網(wǎng)頁抓下來,將內(nèi)容抽取出來,同時抽取超鏈接,作為進一步爬行的線索。網(wǎng)絡(luò)爬蟲總是要從某個起點開始爬,這個起點叫做種子,你可以告訴它,也可以到一些網(wǎng)址列表網(wǎng)站上獲取
          網(wǎng)頁抓取/數(shù)據(jù)抽取/信息提取軟件工具包MetaSeeker是一套完整的解決方案,里面有定題網(wǎng)絡(luò)爬蟲,也叫聚焦網(wǎng)絡(luò)爬蟲,這種爬蟲抓取下來一個頁面后并不抽取所有的超鏈接,而是只找主題相關(guān)的鏈接,籠統(tǒng)的說就是爬行的范圍是受控的。網(wǎng)絡(luò)爬蟲實現(xiàn)代碼主要集中在MetaSeeker工具包中的DataScraper工具。可以從 gooseeker網(wǎng)站下載下來看 
          主站蜘蛛池模板: 襄汾县| 根河市| 辛集市| 涿州市| 南澳县| 邹城市| 普格县| 罗定市| 霸州市| 桐梓县| 南平市| 思茅市| 朝阳市| 鲁甸县| 门源| 隆回县| 沧源| 中超| 通化县| 屏山县| 凭祥市| 馆陶县| 罗源县| 北票市| 通化县| 石嘴山市| 温州市| 寻乌县| 兴和县| 蒙自县| 惠安县| 兴化市| 东丰县| 永登县| 新乡县| 绥化市| 宁南县| 集安市| 大方县| 且末县| 嘉兴市|