posts - 110,  comments - 152,  trackbacks - 0

          再來1號問題:爬蟲的工作過程

          來個圖:

          workflow

          動作分解:
          <傳言看源代碼理解的更細致,不過偶沒看,偶是根據(jù)文檔和下午的操作總結(jié)的,錯了請指正。>

          1.創(chuàng)建空數(shù)據(jù)庫Webdb:

          2.向Webdb中注入入口攫取地址:

          3.根據(jù)Webdb中數(shù)據(jù)生成fetchlist,并生成相應(yīng)的segment。

          4.根據(jù)fetchlist攫取內(nèi)容(fetched content)。

          5.根據(jù)獲取內(nèi)容更新Webdb

          6.重復(fù)執(zhí)行3-5.這個過程52se稱為“產(chǎn)生/抓取/更新”循環(huán)。

          7.完成上面的循環(huán)后,根據(jù)Webdb中信息,如網(wǎng)頁評分和鏈接信息等,再次更新segment.

          8.索引被攫取的頁面,生成鏈接。

          9.去除indexes中重復(fù)的內(nèi)容和鏈接。

          10.依靠indexes合成單一的index文件。大功告成。

          上面這些步驟都可以對應(yīng)到Nutch給我們提供的CrawlTool中的命令上。

          爬蟲忙完了,有了數(shù)據(jù),我們就可以利用Nutch的search部分功能來查找內(nèi)容了。

           

          參考:Nutch爬蟲工作流程及文件格式詳細分析

          Introduction to Nutch, Part 1: Crawling



          平凡而簡單的人一個,無權(quán)無勢也無牽無掛。一路廝殺,只進不退,死而后已,豈不爽哉!
          收起對“車”日行千里的羨慕;收起對“馬”左右逢緣的感嘆;目標(biāo)記在心里面,向前進。一次一步,一步一腳印,跬步千里。
          這個角色很適合現(xiàn)在的


          posted on 2008-04-02 20:53 過河卒 閱讀(560) 評論(0)  編輯  收藏 所屬分類: Java/Java框架
          文章來自: http://www.blogjava.com/ponzmd/ (彭?。^河卒) 轉(zhuǎn)貼請聲明!
          訪問統(tǒng)計:
          主站蜘蛛池模板: 肇庆市| 合山市| 元氏县| 玛曲县| 莆田市| 新津县| 海丰县| 桂阳县| 浏阳市| 广东省| 理塘县| 莒南县| 大丰市| 和平区| 大足县| 晋中市| 毕节市| 盘山县| 麟游县| 左权县| 于都县| 香格里拉县| 武定县| 棋牌| 上高县| 永顺县| 同心县| 河津市| 新沂市| 枣阳市| 台山市| 永善县| 米易县| 安龙县| 龙川县| 濮阳市| 凤城市| 太白县| 宜黄县| 曲阳县| 金阳县|