無線&移動互聯網技術研發

          換位思考·····
          posts - 19, comments - 53, trackbacks - 0, articles - 283
            BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理

          網絡爬蟲原理

          Posted on 2010-02-02 22:29 Gavin.lee 閱讀(469) 評論(0)  編輯  收藏 所屬分類: 經驗&常識
          搜索引擎使用網絡爬蟲尋找網絡內容,網絡上的HTML文檔使用超鏈接連接了起來,就像織成了一張網,網絡爬蟲也叫網絡蜘蛛,順著這張網爬行,每到一個網頁就用抓取程序將這個網頁抓下來,將內容抽取出來,同時抽取超鏈接,作為進一步爬行的線索。網絡爬蟲總是要從某個起點開始爬,這個起點叫做種子,你可以告訴它,也可以到一些網址列表網站上獲取
          網頁抓取/數據抽取/信息提取軟件工具包MetaSeeker是一套完整的解決方案,里面有定題網絡爬蟲,也叫聚焦網絡爬蟲,這種爬蟲抓取下來一個頁面后并不抽取所有的超鏈接,而是只找主題相關的鏈接,籠統的說就是爬行的范圍是受控的。網絡爬蟲實現代碼主要集中在MetaSeeker工具包中的DataScraper工具。可以從 gooseeker網站下載下來看 
          主站蜘蛛池模板: 莱阳市| 邹城市| 通化县| 岗巴县| 崇文区| 德安县| 津市市| 泸州市| 昌吉市| 洪泽县| 奉贤区| 乳山市| 上蔡县| 修武县| 田林县| 蓬莱市| 象山县| 伊金霍洛旗| 咸丰县| 黎川县| 安图县| 双柏县| 阳新县| 永定县| 洛川县| 六盘水市| 鹤壁市| 壶关县| 灵宝市| 称多县| 会昌县| 望谟县| 武强县| 平塘县| 白水县| 克拉玛依市| 宜城市| 津市市| 郯城县| 南阳市| 顺昌县|