Posted on 2010-02-02 22:29
Gavin.lee 閱讀(471)
評(píng)論(0) 編輯 收藏 所屬分類:
經(jīng)驗(yàn)&常識(shí)
搜索引擎使用網(wǎng)絡(luò)爬蟲尋找網(wǎng)絡(luò)內(nèi)容,網(wǎng)絡(luò)上的HTML文檔使用超鏈接連接了起來,就像織成了一張網(wǎng),網(wǎng)絡(luò)爬蟲也叫網(wǎng)絡(luò)蜘蛛,順著這張網(wǎng)爬行,每到一個(gè)網(wǎng)頁就用抓取程序?qū)⑦@個(gè)網(wǎng)頁抓下來,將內(nèi)容抽取出來,同時(shí)抽取超鏈接,作為進(jìn)一步爬行的線索。網(wǎng)絡(luò)爬蟲總是要從某個(gè)起點(diǎn)開始爬,這個(gè)起點(diǎn)叫做種子,你可以告訴它,也可以到一些網(wǎng)址列表網(wǎng)站上獲取
網(wǎng)頁抓取/數(shù)據(jù)抽取/信息提取軟件工具包MetaSeeker是一套完整的解決方案,里面有定題網(wǎng)絡(luò)爬蟲,也叫聚焦網(wǎng)絡(luò)爬蟲,這種爬蟲抓取下來一個(gè)頁面后并不抽取所有的超鏈接,而是只找主題相關(guān)的鏈接,籠統(tǒng)的說就是爬行的范圍是受控的。網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)代碼主要集中在MetaSeeker工具包中的DataScraper工具。可以從 gooseeker網(wǎng)站下載下來看