Nutch vs Lucene(轉(zhuǎn))
http://wangfei4553693.blog.163.com/blog/static/270104772011451312819/
Lucene其實(shí)是一個(gè)提供全文文本搜索的函數(shù)庫(kù),它不是一個(gè)應(yīng)用軟件。它提供很多API函數(shù)讓你可以運(yùn)用到各種實(shí)際應(yīng)用程序中。現(xiàn)在,它已經(jīng)成為Apache的一個(gè)項(xiàng)目并被廣泛應(yīng)用著。這里列出一些已經(jīng)使用Lucene的系統(tǒng)。
Nutch 是一個(gè)建立在Lucene核心之上的Web搜索的實(shí)現(xiàn),它是一個(gè)真正的應(yīng)用程序。也就是說,你可以直接下載下來拿過來用。它在Lucene的基礎(chǔ)上加了網(wǎng) 絡(luò)爬蟲和一些和Web相關(guān)的東東。其目的就是想從一個(gè)簡(jiǎn)單的站內(nèi)索引和搜索推廣到全球網(wǎng)絡(luò)的搜索上,就像Google和Yahoo一樣。當(dāng)然,和那些巨人 競(jìng)爭(zhēng),你得動(dòng)一些腦筋,想一些辦法。我們已經(jīng)測(cè)試過100M的網(wǎng)頁(yè),并且它的設(shè)計(jì)用在超過1B的網(wǎng)頁(yè)上應(yīng)該沒有問題。當(dāng)然,讓它運(yùn)行在一臺(tái)機(jī)器上,搜索一 些服務(wù)器,也運(yùn)行的很好。
總的來說,我認(rèn)為L(zhǎng)UCENE會(huì)應(yīng)用在本地服務(wù)器的網(wǎng)站內(nèi)部搜索,而Nutch則擴(kuò)展到整個(gè)網(wǎng)絡(luò)、Internet的檢索。當(dāng)然LUCENE加上爬蟲程序等就會(huì)成為Nutch,這樣理解應(yīng)該沒錯(cuò)吧。
本文來自CSDN博客,轉(zhuǎn)載請(qǐng)標(biāo)明出處:http://blog.csdn.net/rokii/archive/2008/03/01/2137450.aspx
簡(jiǎn)單的說:
z Lucene 不是完整的應(yīng)用程序,而是一個(gè)用于實(shí)現(xiàn)全文檢索的軟件庫(kù)。
z Nutch 是一個(gè)應(yīng)用程序,可以以 Lucene 為基礎(chǔ)實(shí)現(xiàn)搜索引擎應(yīng)用。
Lucene 為 Nutch 提供了文本索引和搜索的 API。一個(gè)常見的問題是;我應(yīng)
該使用 Lucene 還是Nutch?最簡(jiǎn)單的回答是:如果你不需要抓取數(shù)據(jù)的話,應(yīng)該
使用Lucene。常見的應(yīng)用場(chǎng)合是:你有數(shù)據(jù)源,需要為這些數(shù)據(jù)提供一個(gè)搜索頁(yè)
面。在這種情況下,最好的方式是直接從數(shù)據(jù)庫(kù)中取出數(shù)據(jù)并用 Lucene API 建立
索引。
posted on 2013-04-10 21:53 zhb8015 閱讀(242) 評(píng)論(0) 編輯 收藏 所屬分類: interview