posts - 19, comments - 53, trackbacks - 0, articles - 283
            BlogJava :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理
          搜索引擎使用網(wǎng)絡(luò)爬蟲尋找網(wǎng)絡(luò)內(nèi)容,網(wǎng)絡(luò)上的HTML文檔使用超鏈接連接了起來,就像織成了一張網(wǎng),網(wǎng)絡(luò)爬蟲也叫網(wǎng)絡(luò)蜘蛛,順著這張網(wǎng)爬行,每到一個(gè)網(wǎng)頁就用抓取程序?qū)⑦@個(gè)網(wǎng)頁抓下來,將內(nèi)容抽取出來,同時(shí)抽取超鏈接,作為進(jìn)一步爬行的線索。網(wǎng)絡(luò)爬蟲總是要從某個(gè)起點(diǎn)開始爬,這個(gè)起點(diǎn)叫做種子,你可以告訴它,也可以到一些網(wǎng)址列表網(wǎng)站上獲取
          網(wǎng)頁抓取/數(shù)據(jù)抽取/信息提取軟件工具包MetaSeeker是一套完整的解決方案,里面有定題網(wǎng)絡(luò)爬蟲,也叫聚焦網(wǎng)絡(luò)爬蟲,這種爬蟲抓取下來一個(gè)頁面后并不抽取所有的超鏈接,而是只找主題相關(guān)的鏈接,籠統(tǒng)的說就是爬行的范圍是受控的。網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)代碼主要集中在MetaSeeker工具包中的DataScraper工具。可以從 gooseeker網(wǎng)站下載下來看 
          主站蜘蛛池模板: 麻栗坡县| 康平县| 义乌市| 靖安县| 鄂托克前旗| 美姑县| 得荣县| 东乡族自治县| 增城市| 布拖县| 特克斯县| 即墨市| 大余县| 宣恩县| 安岳县| 苍溪县| 婺源县| 厦门市| 绍兴市| 屏东县| 颍上县| 无极县| 特克斯县| 广元市| 安陆市| 邹城市| 赤峰市| 平塘县| 利川市| 琼中| 甘肃省| 长汀县| 同仁县| 新丰县| 富蕴县| 莆田市| 黄石市| 大关县| 邯郸县| 武强县| 临安市|