最近要用到全文檢索技術(shù)。
這個(gè)Lucene是個(gè)在java界有著很高聲譽(yù)的全文檢索包。
通過(guò)學(xué)習(xí),自己對(duì)它算是有個(gè)初步了解。所以寫下心得與經(jīng)驗(yàn)跟朋友們分享。
對(duì)于整個(gè)網(wǎng)站的結(jié)構(gòu)我說(shuō)下我的看法
數(shù)據(jù)庫(kù)+前端技術(shù)+后臺(tái)處理技術(shù)。
上面的這些我就不說(shuō)了。用來(lái)用去就是那幾個(gè),你覺(jué)得那個(gè)用的順手就行了。
搜索引擎技術(shù)呢,我覺(jué)得要點(diǎn)是:
1。把我們分散的數(shù)據(jù)資源整合起來(lái)-----對(duì)應(yīng)于Lucene的Index也就是索引的意思。
我們把數(shù)據(jù)庫(kù)的數(shù)據(jù),按照自己的方式進(jìn)行索引,關(guān)于索引的技術(shù)可以上網(wǎng)查看。這些索引的數(shù)據(jù)結(jié)構(gòu)是可以自己定義的,這樣方便查詢。
2。搜索技術(shù),因?yàn)槲覀兊馁Y源太分散了,就拿數(shù)據(jù)里面的資源來(lái)說(shuō)吧,每個(gè)表都不同,里面的字段都不同,如果單純采用數(shù)據(jù)庫(kù)來(lái)做的話,你可能要寫很多個(gè)api進(jìn)行搜索。并對(duì)搜索結(jié)果進(jìn)行出里,這樣我們就要自己做很多事情。這么麻煩的話,我們何不把這些數(shù)據(jù)庫(kù)里面的數(shù)據(jù)進(jìn)行索呢,把我們需要的數(shù)據(jù),歸類,整理,然后保存到索引中,雖然這樣會(huì)增加磁盤的容量,但我覺(jué)得這應(yīng)該就不是問(wèn)題。
對(duì)于搜索技術(shù),我們這里又要涉及到關(guān)于分詞的技術(shù),因?yàn)槲覀冎形牟煌笪模瑢?duì)分詞技術(shù)的要求比較高。在這里,我也只是略微看了下Lucene的理論,具體實(shí)現(xiàn),我也很模糊。如果分詞分的好,對(duì)于搜索精度是有很大幫助的。
3。說(shuō)實(shí)話索引就是一個(gè)數(shù)據(jù)庫(kù)。他可以更新,刪除,修改等。
先記錄下這么多,以后在項(xiàng)目中實(shí)踐的時(shí)候,繼續(xù)說(shuō)說(shuō)我的理解
理解可能偏差比較大。大家不要被我誤導(dǎo)啊。
不錯(cuò)的關(guān)于lucene英文書(shū) 點(diǎn)此下載。
這個(gè)Lucene是個(gè)在java界有著很高聲譽(yù)的全文檢索包。
通過(guò)學(xué)習(xí),自己對(duì)它算是有個(gè)初步了解。所以寫下心得與經(jīng)驗(yàn)跟朋友們分享。
對(duì)于整個(gè)網(wǎng)站的結(jié)構(gòu)我說(shuō)下我的看法
數(shù)據(jù)庫(kù)+前端技術(shù)+后臺(tái)處理技術(shù)。
上面的這些我就不說(shuō)了。用來(lái)用去就是那幾個(gè),你覺(jué)得那個(gè)用的順手就行了。
搜索引擎技術(shù)呢,我覺(jué)得要點(diǎn)是:
1。把我們分散的數(shù)據(jù)資源整合起來(lái)-----對(duì)應(yīng)于Lucene的Index也就是索引的意思。
我們把數(shù)據(jù)庫(kù)的數(shù)據(jù),按照自己的方式進(jìn)行索引,關(guān)于索引的技術(shù)可以上網(wǎng)查看。這些索引的數(shù)據(jù)結(jié)構(gòu)是可以自己定義的,這樣方便查詢。
2。搜索技術(shù),因?yàn)槲覀兊馁Y源太分散了,就拿數(shù)據(jù)里面的資源來(lái)說(shuō)吧,每個(gè)表都不同,里面的字段都不同,如果單純采用數(shù)據(jù)庫(kù)來(lái)做的話,你可能要寫很多個(gè)api進(jìn)行搜索。并對(duì)搜索結(jié)果進(jìn)行出里,這樣我們就要自己做很多事情。這么麻煩的話,我們何不把這些數(shù)據(jù)庫(kù)里面的數(shù)據(jù)進(jìn)行索呢,把我們需要的數(shù)據(jù),歸類,整理,然后保存到索引中,雖然這樣會(huì)增加磁盤的容量,但我覺(jué)得這應(yīng)該就不是問(wèn)題。
對(duì)于搜索技術(shù),我們這里又要涉及到關(guān)于分詞的技術(shù),因?yàn)槲覀冎形牟煌笪模瑢?duì)分詞技術(shù)的要求比較高。在這里,我也只是略微看了下Lucene的理論,具體實(shí)現(xiàn),我也很模糊。如果分詞分的好,對(duì)于搜索精度是有很大幫助的。
3。說(shuō)實(shí)話索引就是一個(gè)數(shù)據(jù)庫(kù)。他可以更新,刪除,修改等。
先記錄下這么多,以后在項(xiàng)目中實(shí)踐的時(shí)候,繼續(xù)說(shuō)說(shuō)我的理解
理解可能偏差比較大。大家不要被我誤導(dǎo)啊。
不錯(cuò)的關(guān)于lucene英文書(shū) 點(diǎn)此下載。