posts - 110,  comments - 152,  trackbacks - 0

          再來1號問題:爬蟲的工作過程

          來個圖:

          workflow

          動作分解:
          <傳言看源代碼理解的更細致,不過偶沒看,偶是根據文檔和下午的操作總結的,錯了請指正。>

          1.創建空數據庫Webdb:

          2.向Webdb中注入入口攫取地址:

          3.根據Webdb中數據生成fetchlist,并生成相應的segment。

          4.根據fetchlist攫取內容(fetched content)。

          5.根據獲取內容更新Webdb

          6.重復執行3-5.這個過程52se稱為“產生/抓取/更新”循環。

          7.完成上面的循環后,根據Webdb中信息,如網頁評分和鏈接信息等,再次更新segment.

          8.索引被攫取的頁面,生成鏈接。

          9.去除indexes中重復的內容和鏈接。

          10.依靠indexes合成單一的index文件。大功告成。

          上面這些步驟都可以對應到Nutch給我們提供的CrawlTool中的命令上。

          爬蟲忙完了,有了數據,我們就可以利用Nutch的search部分功能來查找內容了。

           

          參考:Nutch爬蟲工作流程及文件格式詳細分析

          Introduction to Nutch, Part 1: Crawling



          平凡而簡單的人一個,無權無勢也無牽無掛。一路廝殺,只進不退,死而后已,豈不爽哉!
          收起對“車”日行千里的羨慕;收起對“馬”左右逢緣的感嘆;目標記在心里面,向前進。一次一步,一步一腳印,跬步千里。
          這個角色很適合現在的


          posted on 2008-04-02 20:53 過河卒 閱讀(559) 評論(0)  編輯  收藏 所屬分類: Java/Java框架
          文章來自: http://www.blogjava.com/ponzmd/ (彭俊-過河卒) 轉貼請聲明!
          訪問統計:
          主站蜘蛛池模板: 普兰店市| 交城县| 信宜市| 蓬溪县| 旅游| 介休市| 林州市| 德阳市| 汶川县| 长兴县| 普兰店市| 轮台县| 长宁县| 凌海市| 宝兴县| 丰原市| 定陶县| 佛坪县| 太康县| 普安县| 松阳县| 汕尾市| 华池县| 外汇| 年辖:市辖区| 杂多县| 方山县| 宁武县| 六安市| 昌乐县| 揭西县| 宝丰县| 吉水县| 岳池县| 桂东县| 当涂县| 庆城县| 醴陵市| 肃北| 青神县| 横峰县|