再來1號問題:爬蟲的工作過程
來個圖:
動作分解:
<傳言看源代碼理解的更細致,不過偶沒看,偶是根據(jù)文檔和下午的操作總結(jié)的,錯了請指正。>
1.創(chuàng)建空數(shù)據(jù)庫Webdb:
2.向Webdb中注入入口攫取地址:
3.根據(jù)Webdb中數(shù)據(jù)生成fetchlist,并生成相應(yīng)的segment。
4.根據(jù)fetchlist攫取內(nèi)容(fetched content)。
5.根據(jù)獲取內(nèi)容更新Webdb
6.重復(fù)執(zhí)行3-5.這個過程52se稱為“產(chǎn)生/抓取/更新”循環(huán)。
7.完成上面的循環(huán)后,根據(jù)Webdb中信息,如網(wǎng)頁評分和鏈接信息等,再次更新segment.
8.索引被攫取的頁面,生成鏈接。
9.去除indexes中重復(fù)的內(nèi)容和鏈接。
10.依靠indexes合成單一的index文件。大功告成。
上面這些步驟都可以對應(yīng)到Nutch給我們提供的CrawlTool中的命令上。
爬蟲忙完了,有了數(shù)據(jù),我們就可以利用Nutch的search部分功能來查找內(nèi)容了。
Introduction to Nutch, Part 1: Crawling
平凡而簡單的人一個,無權(quán)無勢也無牽無掛。一路廝殺,只進不退,死而后已,豈不爽哉!
收起對“車”日行千里的羨慕;收起對“馬”左右逢緣的感嘆;目標(biāo)記在心里面,向前進。一次一步,一步一腳印,跬步千里。
這個角色很適合現(xiàn)在的我。