bbbbbbbbbbb在线视频,久久久久国产,欧美综合另类

<strike id="qwoag"></strike>

<ul id="qwoag"><pre id="qwoag"></pre></ul>

:: 首頁 :: 新隨筆 :: :: 聚合

:: 管理

posts - 110, comments - 152, trackbacks - 0

Nutch的數據存儲結構。

昨天睡覺前，總結了感興趣的3個問題，現在來回顧一下

1.爬蟲工作的過程？

2.爬蟲獲取數據后，數據的存儲結構？

3.數據如何索引成Lucene設定的索引格式？

上午干工作耽誤了，下午得閑，看點資料。試簡單總結一下上面幾個問題的。

先回答2號問題，數據的存儲結構好了。

Nutch把爬蟲找回來的資料做成了放在一個文件夾里面，美其名曰Web database。其實里面分別就四個文件夾了事。依次道來：

crawldb：存放需要抓取的的超鏈接地址；
segments：存放依據crawldb中提供的地址抓取到的內容信息。segments中的每個子文件夾存儲fetcher根據crawldb抓取一次所得的內容。這些抓取的內容包括有content、crawl_fetch、crawl_generate、crawl_parse、parse_data、parse_text。其中content是抓取下來的網頁內容；crawl_generate根據crawldb最初生成；crawl_fetch、content在抓取時生成；crawl_parse、parse_data、parse_text在解析抓取的數據文件時生成。其中crawl_generate、crawl_fetch和crawl_parse是crawldb的部分url數據，它們格式一樣，不同的是抓取時間、狀態、簽名等有所變化。
Index和indexes：Index是最終我們所需要得到的東西，而Index就是通過indexes合并的到的。
Linkdb：linkdb中存放的是所有超鏈接及其每個鏈接的連入地址和錨文件。

好了這個存儲結構的問題完成了。

抽空先寫這么多，呆會有時間在繼續。

平凡而簡單的人一個，無權無勢也無牽無掛。一路廝殺，只進不退，死而后已，豈不爽哉！
收起對“車”日行千里的羨慕；收起對“馬”左右逢緣的感嘆；目標記在心里面，向前進。一次一步，一步一腳印，跬步千里。
這個角色很適合現在的我。

posted on 2008-04-02 20:52 過河卒閱讀(998) 評論(0) 編輯收藏所屬分類: Java/Java框架

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: Netbean導入源代碼和Javadoc [轉]提高Java水平的十大技術 Nutch爬蟲的工作過程 Nutch的數據存儲結構。 Nutch0.9基本配置 Nutch初接觸 [ZT]Java版大腕對白排序：堆排序算法金蝶OperaMasks框架的宣傳視頻 AXIS1.4 DOC 閱讀筆記

文章來自: http://www.blogjava.com/ponzmd/ (彭俊－過河卒) 轉貼請聲明！
訪問統計:

主站蜘蛛池模板：神木县| 九江县| 云阳县| 牙克石市| 兴隆县| 郁南县| 杨浦区| 自贡市| 理塘县| 彭阳县| 敖汉旗| 大田县| 定结县| 金平| 塘沽区| 察哈| 黄大仙区| 平阳县| 镶黄旗| 珲春市| 射阳县| 娱乐| 乌鲁木齐市| 光山县| 华蓥市| 许昌市| 泰兴市| 左贡县| 金山区| 昌都县| 五大连池市| 肥乡县| 咸宁市| 沙湾县| 中方县| 西吉县| 观塘区| 和龙市| 甘洛县| 鞍山市| 嘉兴市|

<th id="8ikus"></th>

<tr id="8ikus"></tr>

<strike id="8ikus"></strike>

<strike id="8ikus"></strike>

<ul id="8ikus"></ul>