久久日韩精品,精品一区二区影视,亚洲精品欧美在线

網(wǎng)絡(luò)爬蟲原理

Posted on 2010-02-02 22:29 Gavin.lee 閱讀(471) 評論(0) 編輯收藏所屬分類: 經(jīng)驗&常識

搜索引擎使用網(wǎng)絡(luò)爬蟲尋找網(wǎng)絡(luò)內(nèi)容，網(wǎng)絡(luò)上的HTML文檔使用超鏈接連接了起來，就像織成了一張網(wǎng)，網(wǎng)絡(luò)爬蟲也叫網(wǎng)絡(luò)蜘蛛，順著這張網(wǎng)爬行，每到一個網(wǎng)頁就用抓取程序?qū)⑦@個網(wǎng)頁抓下來，將內(nèi)容抽取出來，同時抽取超鏈接，作為進一步爬行的線索。網(wǎng)絡(luò)爬蟲總是要從某個起點開始爬，這個起點叫做種子，你可以告訴它，也可以到一些網(wǎng)址列表網(wǎng)站上獲取
網(wǎng)頁抓取/數(shù)據(jù)抽取/信息提取軟件工具包MetaSeeker是一套完整的解決方案，里面有定題網(wǎng)絡(luò)爬蟲，也叫聚焦網(wǎng)絡(luò)爬蟲，這種爬蟲抓取下來一個頁面后并不抽取所有的超鏈接，而是只找主題相關(guān)的鏈接，籠統(tǒng)的說就是爬行的范圍是受控的。網(wǎng)絡(luò)爬蟲實現(xiàn)代碼主要集中在MetaSeeker工具包中的DataScraper工具。可以從 gooseeker網(wǎng)站下載下來看

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: ucweb和opera工作原理的差別【摘】設(shè)置IE查看源文件時默認打開的編輯器【轉(zhuǎn)】 Tomcat JspFactory的異常的原因及解決辦法關(guān)于MyEclipse中的Tomcat啟動的問題【Tomcat JDK name error】 win-xp 自動關(guān)機腳本【古老的記憶】 Office 2007 Word 打開故障 - "The setup controller has encountered a problem during instll" MyEclipse 后臺進程一直運行"computing additional info"的解決辦法 MyEclipse 一直 initializing java tooling······ MyEclipse 代碼提示（“@”自動提示） org.hibernate.hql.ast.QuerySyntaxException（我的流水賬）

無線&移動互聯(lián)網(wǎng)技術(shù)研發(fā)

網(wǎng)絡(luò)爬蟲原理

日歷

常用鏈接

留言簿(13)

我參與的團隊

隨筆檔案(19)

文章分類(277)

文章檔案(282)

收藏夾(7)

友情鏈接

最新隨筆

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜