小菜毛毛技術(shù)分享

          與大家共同成長(zhǎng)

            BlogJava :: 首頁(yè) :: 聯(lián)系 :: 聚合  :: 管理
            164 Posts :: 141 Stories :: 94 Comments :: 0 Trackbacks

          想做一個(gè)搜索引擎,最近瀏覽了許多社區(qū),發(fā)現(xiàn)Lucene和Nutch用的很多,而這兩個(gè)我總感覺(jué)難以區(qū)分概念,于是在查了些資料。下面是Lucene和Nutch創(chuàng)始人Doug Cutting 的訪談?wù)洠?/p>

           Lucene其實(shí)是一個(gè)提供全文文本搜索的函數(shù)庫(kù),它不是一個(gè)應(yīng)用軟件。它提供很多API函數(shù)讓你可以運(yùn)用到各種實(shí)際應(yīng)用程序中。現(xiàn)在,它已經(jīng)成為Apache的一個(gè)項(xiàng)目并被廣泛應(yīng)用著。這里列出一些已經(jīng)使用Lucene的系統(tǒng)。

          Nutch是一個(gè)建立在Lucene核心之上的Web搜索的實(shí)現(xiàn),它是一個(gè)真正的應(yīng)用程序。也就是說(shuō),你可以直接下載下來(lái)拿過(guò)來(lái)用。它在Lucene的基礎(chǔ)上加了網(wǎng)絡(luò)爬蟲和一些和Web相關(guān)的東東。其目的就是想從一個(gè)簡(jiǎn)單的站內(nèi)索引和搜索推廣到全球網(wǎng)絡(luò)的搜索上,就像Google和Yahoo一樣。當(dāng)然,和那些巨人競(jìng)爭(zhēng),你得動(dòng)一些腦筋,想一些辦法。我們已經(jīng)測(cè)試過(guò)100M的網(wǎng)頁(yè),并且它的設(shè)計(jì)用在超過(guò)1B的網(wǎng)頁(yè)上應(yīng)該沒(méi)有問(wèn)題。當(dāng)然,讓它運(yùn)行在一臺(tái)機(jī)器上,搜索一些服務(wù)器,也運(yùn)行的很好。

             總的來(lái)說(shuō),我認(rèn)為L(zhǎng)UCENE會(huì)應(yīng)用在本地服務(wù)器的網(wǎng)站內(nèi)部搜索,而Nutch則擴(kuò)展到整個(gè)網(wǎng)絡(luò)、Internet的檢索。當(dāng)然LUCENE加上爬蟲程序等就會(huì)成為Nutch,這樣理解應(yīng)該沒(méi)錯(cuò)吧


          本文來(lái)自CSDN博客,轉(zhuǎn)載請(qǐng)標(biāo)明出處:http://blog.csdn.net/rokii/archive/2008/03/01/2137450.aspx

          posted on 2009-09-24 12:53 小菜毛毛 閱讀(378) 評(píng)論(0)  編輯  收藏 所屬分類: 搜索引擎
          主站蜘蛛池模板: 南宫市| 始兴县| 偃师市| 通海县| 望城县| 宣城市| 尼勒克县| 团风县| 玉屏| 吐鲁番市| 板桥市| 双江| 包头市| 怀仁县| 上虞市| 漯河市| 东明县| 湖州市| 福海县| 瓮安县| 阜宁县| 广西| 常德市| 霍城县| 施秉县| 铁岭县| 边坝县| 盘山县| 常宁市| 昌都县| 临漳县| 鄄城县| 庆城县| 拜泉县| 类乌齐县| 渭源县| 阜康市| 台南县| 铜山县| 蒙阴县| 寿光市|