過河卒
平凡而簡單的人一個，無權無勢也無牽無掛。一路廝殺，只進不退，死而后已，豈不爽哉！
收起對“車”日行千里的羨慕；收起對“馬”左右逢緣的感嘆；目標記在心里面，向前進。一次一步，一步一腳印，跬步千里。
這個角色很適合現在的我。

:: 首頁 :: 新隨筆 :: :: 聚合

:: 管理

posts - 110, comments - 152, trackbacks - 0

公告

交朋友，這樣聯系我：

有事，你Q我，點這里就OK：

最近在讀的書：

暫無

歡迎訂閱：

訂閱本站

<

2008年4月

>

日

一

二

三

四

五

六

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

7

8

9

10

隨筆分類(110)

Blog友

搜索

最新評論

1.?re: 回歸
老朋友，歡迎回來！
--CodeDream
2.?re: 開通Android Market流程
不錯
--todi
3.?re: 通讀Android文檔系列 TWO[未登錄]
"如果要卸載apk卻沒有提供adb uninstall這個命令"
adb uninstall +package name not apk file name
--star
4.?re: 讀《SQL必知必會》所得 FOUR
我找了個英文版的，看的巨慢。。。。。你總結的很好，對我很有幫助，謝謝
--cici
5.?re: Javascript調用OCX控件
麻煩寫下通過javascript捕獲ocx事件
--phd

Nutch爬蟲的工作過程

再來1號問題：爬蟲的工作過程

來個圖：

動作分解：
<傳言看源代碼理解的更細致，不過偶沒看，偶是根據文檔和下午的操作總結的，錯了請指正。>

1.創建空數據庫Webdb：

2.向Webdb中注入入口攫取地址：

3.根據Webdb中數據生成fetchlist，并生成相應的segment。

4.根據fetchlist攫取內容（fetched content）。

5.根據獲取內容更新Webdb

6.重復執行3-5.這個過程52se稱為“產生/抓取/更新”循環。

7.完成上面的循環后，根據Webdb中信息，如網頁評分和鏈接信息等，再次更新segment.

8.索引被攫取的頁面，生成鏈接。

9.去除indexes中重復的內容和鏈接。

10.依靠indexes合成單一的index文件。大功告成。

上面這些步驟都可以對應到Nutch給我們提供的CrawlTool中的命令上。

爬蟲忙完了，有了數據，我們就可以利用Nutch的search部分功能來查找內容了。

參考：Nutch爬蟲工作流程及文件格式詳細分析

Introduction to Nutch, Part 1: Crawling

平凡而簡單的人一個，無權無勢也無牽無掛。一路廝殺，只進不退，死而后已，豈不爽哉！
收起對“車”日行千里的羨慕；收起對“馬”左右逢緣的感嘆；目標記在心里面，向前進。一次一步，一步一腳印，跬步千里。
這個角色很適合現在的我。

posted on 2008-04-02 20:53 過河卒閱讀(564) 評論(0) 編輯收藏所屬分類: Java/Java框架

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: Netbean導入源代碼和Javadoc [轉]提高Java水平的十大技術 Nutch爬蟲的工作過程 Nutch的數據存儲結構。 Nutch0.9基本配置 Nutch初接觸 [ZT]Java版大腕對白排序：堆排序算法金蝶OperaMasks框架的宣傳視頻 AXIS1.4 DOC 閱讀筆記