搜索引擎使用網絡爬蟲尋找網絡內容,網絡上的HTML文檔使用超鏈接連接了起來,就像織成了一張網,網絡爬蟲也叫網絡蜘蛛,順著這張網爬行,每到一個網頁就用抓取程序將這個網頁抓下來,將內容抽取出來,同時抽取超鏈接,作為進一步爬行的線索。網絡爬蟲總是要從某個起點開始爬,這個起點叫做種子,你可以告訴它,也可以到一些網址列表網站上獲取 網頁抓取/數據抽取/信息提取軟件工具包MetaSeeker是一套完整的解決方案,里面有定題網絡爬蟲,也叫聚焦網絡爬蟲,這種爬蟲抓取下來一個頁面后并不抽取所有的超鏈接,而是只找主題相關的鏈接,籠統的說就是爬行的范圍是受控的。網絡爬蟲實現代碼主要集中在MetaSeeker工具包中的DataScraper工具。可以從 gooseeker網站下載下來看
只有注冊用戶登錄后才能發表評論。 | ||
![]() |
||
網站導航:
博客園
IT新聞
Chat2DB
C++博客
博問
管理
|
||
相關文章:
|
||