無線&移動互聯網技術研發

          換位思考·····
          posts - 19, comments - 53, trackbacks - 0, articles - 283
            BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理

          網絡爬蟲原理

          Posted on 2010-02-02 22:29 Gavin.lee 閱讀(469) 評論(0)  編輯  收藏 所屬分類: 經驗&常識
          搜索引擎使用網絡爬蟲尋找網絡內容,網絡上的HTML文檔使用超鏈接連接了起來,就像織成了一張網,網絡爬蟲也叫網絡蜘蛛,順著這張網爬行,每到一個網頁就用抓取程序將這個網頁抓下來,將內容抽取出來,同時抽取超鏈接,作為進一步爬行的線索。網絡爬蟲總是要從某個起點開始爬,這個起點叫做種子,你可以告訴它,也可以到一些網址列表網站上獲取
          網頁抓取/數據抽取/信息提取軟件工具包MetaSeeker是一套完整的解決方案,里面有定題網絡爬蟲,也叫聚焦網絡爬蟲,這種爬蟲抓取下來一個頁面后并不抽取所有的超鏈接,而是只找主題相關的鏈接,籠統的說就是爬行的范圍是受控的。網絡爬蟲實現代碼主要集中在MetaSeeker工具包中的DataScraper工具。可以從 gooseeker網站下載下來看 
          主站蜘蛛池模板: 图们市| 大英县| 依兰县| 庐江县| 潜江市| 夏津县| 宁蒗| 南陵县| 镇安县| 定南县| 沧州市| 仙桃市| 麟游县| 麻阳| 新竹市| 吉林市| 辽源市| 棋牌| 黄大仙区| 霞浦县| 青阳县| 四子王旗| 塘沽区| 玛纳斯县| 陇川县| 驻马店市| 永嘉县| 合水县| 兴国县| 馆陶县| 津市市| 东乡| 巨野县| 平阴县| 罗平县| 西城区| 德兴市| 凤凰县| 江油市| 新营市| 巫溪县|