posts - 110,  comments - 152,  trackbacks - 0

          再來1號問題:爬蟲的工作過程

          來個圖:

          workflow

          動作分解:
          <傳言看源代碼理解的更細致,不過偶沒看,偶是根據文檔和下午的操作總結的,錯了請指正。>

          1.創建空數據庫Webdb:

          2.向Webdb中注入入口攫取地址:

          3.根據Webdb中數據生成fetchlist,并生成相應的segment。

          4.根據fetchlist攫取內容(fetched content)。

          5.根據獲取內容更新Webdb

          6.重復執行3-5.這個過程52se稱為“產生/抓取/更新”循環。

          7.完成上面的循環后,根據Webdb中信息,如網頁評分和鏈接信息等,再次更新segment.

          8.索引被攫取的頁面,生成鏈接。

          9.去除indexes中重復的內容和鏈接。

          10.依靠indexes合成單一的index文件。大功告成。

          上面這些步驟都可以對應到Nutch給我們提供的CrawlTool中的命令上。

          爬蟲忙完了,有了數據,我們就可以利用Nutch的search部分功能來查找內容了。

           

          參考:Nutch爬蟲工作流程及文件格式詳細分析

          Introduction to Nutch, Part 1: Crawling



          平凡而簡單的人一個,無權無勢也無牽無掛。一路廝殺,只進不退,死而后已,豈不爽哉!
          收起對“車”日行千里的羨慕;收起對“馬”左右逢緣的感嘆;目標記在心里面,向前進。一次一步,一步一腳印,跬步千里。
          這個角色很適合現在的


          posted on 2008-04-02 20:53 過河卒 閱讀(564) 評論(0)  編輯  收藏 所屬分類: Java/Java框架
          文章來自: http://www.blogjava.com/ponzmd/ (彭俊-過河卒) 轉貼請聲明!
          訪問統計:
          主站蜘蛛池模板: 连平县| 扎兰屯市| 永州市| 丰宁| 晋州市| 大竹县| 佛学| 陆河县| 淳化县| 苏尼特左旗| 海晏县| 大埔区| 怀安县| 扬中市| 广饶县| 霞浦县| 阳谷县| 博湖县| 白玉县| 台江县| 汶川县| 青田县| 博野县| 宁明县| 运城市| 江川县| 乌拉特中旗| 东宁县| 永昌县| 乾安县| 临湘市| 武山县| 临海市| 板桥市| 徐闻县| 马关县| 镇原县| 太保市| 建平县| 永吉县| 平乡县|