小菜毛毛技術分享

          與大家共同成長

            BlogJava :: 首頁 :: 聯系 :: 聚合  :: 管理
            164 Posts :: 141 Stories :: 94 Comments :: 0 Trackbacks

          想做一個搜索引擎,最近瀏覽了許多社區,發現Lucene和Nutch用的很多,而這兩個我總感覺難以區分概念,于是在查了些資料。下面是Lucene和Nutch創始人Doug Cutting 的訪談摘錄:

           Lucene其實是一個提供全文文本搜索的函數庫,它不是一個應用軟件。它提供很多API函數讓你可以運用到各種實際應用程序中?,F在,它已經成為Apache的一個項目并被廣泛應用著。這里列出一些已經使用Lucene的系統。

          Nutch是一個建立在Lucene核心之上的Web搜索的實現,它是一個真正的應用程序。也就是說,你可以直接下載下來拿過來用。它在Lucene的基礎上加了網絡爬蟲和一些和Web相關的東東。其目的就是想從一個簡單的站內索引和搜索推廣到全球網絡的搜索上,就像Google和Yahoo一樣。當然,和那些巨人競爭,你得動一些腦筋,想一些辦法。我們已經測試過100M的網頁,并且它的設計用在超過1B的網頁上應該沒有問題。當然,讓它運行在一臺機器上,搜索一些服務器,也運行的很好。

             總的來說,我認為LUCENE會應用在本地服務器的網站內部搜索,而Nutch則擴展到整個網絡、Internet的檢索。當然LUCENE加上爬蟲程序等就會成為Nutch,這樣理解應該沒錯吧


          本文來自CSDN博客,轉載請標明出處:http://blog.csdn.net/rokii/archive/2008/03/01/2137450.aspx

          posted on 2009-09-24 12:53 小菜毛毛 閱讀(378) 評論(0)  編輯  收藏 所屬分類: 搜索引擎
          主站蜘蛛池模板: 闽侯县| 大悟县| 黄梅县| 鄂伦春自治旗| 滨州市| 古丈县| 石门县| 两当县| 宝丰县| 奇台县| 龙岩市| 南安市| 宜都市| 微山县| 泌阳县| 辰溪县| 岑巩县| 渝中区| 泗水县| 綦江县| 玉环县| 林西县| 同仁县| 桂东县| 闸北区| 麻栗坡县| 泌阳县| 沧源| 丘北县| 华蓥市| 澜沧| 资源县| 南郑县| 佛教| 萝北县| 龙山县| 韶山市| 咸宁市| 青川县| 马山县| 叙永县|