posts - 110,  comments - 152,  trackbacks - 0

          昨天睡覺前,總結了感興趣的3個問題,現在來回顧一下

          1.爬蟲工作的過程?

          2.爬蟲獲取數據后,數據的存儲結構?

          3.數據如何索引成Lucene設定的索引格式?

          上午干工作耽誤了,下午得閑,看點資料。試簡單總結一下上面幾個問題的。

          先回答2號問題,數據的存儲結構好了。

          Nutch把爬蟲找回來的資料做成了放在一個文件夾里面,美其名曰Web database。其實里面分別就四個文件夾了事。依次道來:

          • crawldb:存放需要抓取的的超鏈接地址;
          • segments:存放依據crawldb中提供的地址抓取到的內容信息。segments中的每個子文件夾存儲fetcher根據crawldb抓取一次所得的內容。這些抓取的內容包括有content、crawl_fetch、crawl_generate、crawl_parse、parse_data、parse_text。其中content是抓取下來的網頁內容;crawl_generate根據crawldb最初生成;crawl_fetch、content在抓取時生成;crawl_parse、parse_data、parse_text在解析抓取的數據文件時生成。其中crawl_generate、crawl_fetch和crawl_parse是crawldb的部分url數據,它們格式一樣,不同的是抓取時間、狀態、簽名等有所變化。
          • Index和indexes:Index是最終我們所需要得到的東西,而Index就是通過indexes合并的到的。
          • Linkdb:linkdb中存放的是所有超鏈接及其每個鏈接的連入地址和錨文件。

          好了這個存儲結構的問題完成了。

          抽空先寫這么多,呆會有時間在繼續。



          平凡而簡單的人一個,無權無勢也無牽無掛。一路廝殺,只進不退,死而后已,豈不爽哉!
          收起對“車”日行千里的羨慕;收起對“馬”左右逢緣的感嘆;目標記在心里面,向前進。一次一步,一步一腳印,跬步千里。
          這個角色很適合現在的


          posted on 2008-04-02 20:52 過河卒 閱讀(989) 評論(0)  編輯  收藏 所屬分類: Java/Java框架
          文章來自: http://www.blogjava.com/ponzmd/ (彭俊-過河卒) 轉貼請聲明!
          訪問統計:
          主站蜘蛛池模板: 陆河县| 潞城市| 安龙县| 昭觉县| 绩溪县| 宜宾市| 英超| 临朐县| 仙游县| 芦溪县| 亳州市| 永泰县| 万全县| 苍溪县| 新化县| 马鞍山市| 香港 | 汉源县| 惠东县| 将乐县| 华亭县| 紫金县| 民丰县| 张家港市| 静乐县| 弋阳县| 民勤县| 登封市| 彝良县| 西宁市| 梅河口市| 大新县| 芦山县| 米脂县| 贵德县| 千阳县| 兴山县| 罗山县| 集安市| 五常市| 体育|