想做一個(gè)搜索引擎,最近瀏覽了許多社區(qū),發(fā)現(xiàn)Lucene和Nutch用的很多,而這兩個(gè)我總感覺(jué)難以區(qū)分概念,于是在查了些資料。下面是Lucene和Nutch創(chuàng)始人Doug Cutting 的訪談?wù)洠?/p>
Lucene其實(shí)是一個(gè)提供全文文本搜索的函數(shù)庫(kù),它不是一個(gè)應(yīng)用軟件。它提供很多API函數(shù)讓你可以運(yùn)用到各種實(shí)際應(yīng)用程序中。現(xiàn)在,它已經(jīng)成為Apache的一個(gè)項(xiàng)目并被廣泛應(yīng)用著。這里列出一些已經(jīng)使用Lucene的系統(tǒng)。
Nutch是一個(gè)建立在Lucene核心之上的Web搜索的實(shí)現(xiàn),它是一個(gè)真正的應(yīng)用程序。也就是說(shuō),你可以直接下載下來(lái)拿過(guò)來(lái)用。它在Lucene的基礎(chǔ)上加了網(wǎng)絡(luò)爬蟲和一些和Web相關(guān)的東東。其目的就是想從一個(gè)簡(jiǎn)單的站內(nèi)索引和搜索推廣到全球網(wǎng)絡(luò)的搜索上,就像Google和Yahoo一樣。當(dāng)然,和那些巨人競(jìng)爭(zhēng),你得動(dòng)一些腦筋,想一些辦法。我們已經(jīng)測(cè)試過(guò)100M的網(wǎng)頁(yè),并且它的設(shè)計(jì)用在超過(guò)1B的網(wǎng)頁(yè)上應(yīng)該沒(méi)有問(wèn)題。當(dāng)然,讓它運(yùn)行在一臺(tái)機(jī)器上,搜索一些服務(wù)器,也運(yùn)行的很好。
總的來(lái)說(shuō),我認(rèn)為L(zhǎng)UCENE會(huì)應(yīng)用在本地服務(wù)器的網(wǎng)站內(nèi)部搜索,而Nutch則擴(kuò)展到整個(gè)網(wǎng)絡(luò)、Internet的檢索。當(dāng)然LUCENE加上爬蟲程序等就會(huì)成為Nutch,這樣理解應(yīng)該沒(méi)錯(cuò)吧
本文來(lái)自CSDN博客,轉(zhuǎn)載請(qǐng)標(biāo)明出處:http://blog.csdn.net/rokii/archive/2008/03/01/2137450.aspx