久久成人资源,国产精品色视频,欧美高清性xxxxhd

網(wǎng)絡(luò)爬蟲原理

Posted on 2010-02-02 22:29 Gavin.lee 閱讀(471) 評(píng)論(0) 編輯收藏所屬分類: 經(jīng)驗(yàn)&常識(shí)

搜索引擎使用網(wǎng)絡(luò)爬蟲尋找網(wǎng)絡(luò)內(nèi)容，網(wǎng)絡(luò)上的HTML文檔使用超鏈接連接了起來，就像織成了一張網(wǎng)，網(wǎng)絡(luò)爬蟲也叫網(wǎng)絡(luò)蜘蛛，順著這張網(wǎng)爬行，每到一個(gè)網(wǎng)頁就用抓取程序?qū)⑦@個(gè)網(wǎng)頁抓下來，將內(nèi)容抽取出來，同時(shí)抽取超鏈接，作為進(jìn)一步爬行的線索。網(wǎng)絡(luò)爬蟲總是要從某個(gè)起點(diǎn)開始爬，這個(gè)起點(diǎn)叫做種子，你可以告訴它，也可以到一些網(wǎng)址列表網(wǎng)站上獲取
網(wǎng)頁抓取/數(shù)據(jù)抽取/信息提取軟件工具包MetaSeeker是一套完整的解決方案，里面有定題網(wǎng)絡(luò)爬蟲，也叫聚焦網(wǎng)絡(luò)爬蟲，這種爬蟲抓取下來一個(gè)頁面后并不抽取所有的超鏈接，而是只找主題相關(guān)的鏈接，籠統(tǒng)的說就是爬行的范圍是受控的。網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)代碼主要集中在MetaSeeker工具包中的DataScraper工具。可以從 gooseeker網(wǎng)站下載下來看

新用戶注冊刷新評(píng)論列表


只有注冊用戶登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: ucweb和opera工作原理的差別【摘】設(shè)置IE查看源文件時(shí)默認(rèn)打開的編輯器【轉(zhuǎn)】 Tomcat JspFactory的異常的原因及解決辦法關(guān)于MyEclipse中的Tomcat啟動(dòng)的問題【Tomcat JDK name error】 win-xp 自動(dòng)關(guān)機(jī)腳本【古老的記憶】 Office 2007 Word 打開故障 - "The setup controller has encountered a problem during instll" MyEclipse 后臺(tái)進(jìn)程一直運(yùn)行"computing additional info"的解決辦法 MyEclipse 一直 initializing java tooling······ MyEclipse 代碼提示（“@”自動(dòng)提示） org.hibernate.hql.ast.QuerySyntaxException（我的流水賬）

無線&移動(dòng)互聯(lián)網(wǎng)技術(shù)研發(fā)

網(wǎng)絡(luò)爬蟲原理

日歷

常用鏈接

留言簿(13)

我參與的團(tuán)隊(duì)

隨筆檔案(19)

文章分類(277)

文章檔案(282)

收藏夾(7)

友情鏈接

最新隨筆

搜索

積分與排名

最新評(píng)論

閱讀排行榜

評(píng)論排行榜