最近要用到全文檢索技術(shù)。
這個(gè)Lucene是個(gè)在java界有著很高聲譽(yù)的全文檢索包。
通過學(xué)習(xí),自己對它算是有個(gè)初步了解。所以寫下心得與經(jīng)驗(yàn)跟朋友們分享。
對于整個(gè)網(wǎng)站的結(jié)構(gòu)我說下我的看法
數(shù)據(jù)庫+前端技術(shù)+后臺(tái)處理技術(shù)。
上面的這些我就不說了。用來用去就是那幾個(gè),你覺得那個(gè)用的順手就行了。
搜索引擎技術(shù)呢,我覺得要點(diǎn)是:
1。把我們分散的數(shù)據(jù)資源整合起來-----對應(yīng)于Lucene的Index也就是索引的意思。
我們把數(shù)據(jù)庫的數(shù)據(jù),按照自己的方式進(jìn)行索引,關(guān)于索引的技術(shù)可以上網(wǎng)查看。這些索引的數(shù)據(jù)結(jié)構(gòu)是可以自己定義的,這樣方便查詢。
2。搜索技術(shù),因?yàn)槲覀兊馁Y源太分散了,就拿數(shù)據(jù)里面的資源來說吧,每個(gè)表都不同,里面的字段都不同,如果單純采用數(shù)據(jù)庫來做的話,你可能要寫很多個(gè)api進(jìn)行搜索。并對搜索結(jié)果進(jìn)行出里,這樣我們就要自己做很多事情。這么麻煩的話,我們何不把這些數(shù)據(jù)庫里面的數(shù)據(jù)進(jìn)行索呢,把我們需要的數(shù)據(jù),歸類,整理,然后保存到索引中,雖然這樣會(huì)增加磁盤的容量,但我覺得這應(yīng)該就不是問題。
對于搜索技術(shù),我們這里又要涉及到關(guān)于分詞的技術(shù),因?yàn)槲覀冎形牟煌笪模瑢Ψ衷~技術(shù)的要求比較高。在這里,我也只是略微看了下Lucene的理論,具體實(shí)現(xiàn),我也很模糊。如果分詞分的好,對于搜索精度是有很大幫助的。
3。說實(shí)話索引就是一個(gè)數(shù)據(jù)庫。他可以更新,刪除,修改等。
先記錄下這么多,以后在項(xiàng)目中實(shí)踐的時(shí)候,繼續(xù)說說我的理解
理解可能偏差比較大。大家不要被我誤導(dǎo)啊。
不錯(cuò)的關(guān)于lucene英文書 點(diǎn)此下載。
這個(gè)Lucene是個(gè)在java界有著很高聲譽(yù)的全文檢索包。
通過學(xué)習(xí),自己對它算是有個(gè)初步了解。所以寫下心得與經(jīng)驗(yàn)跟朋友們分享。
對于整個(gè)網(wǎng)站的結(jié)構(gòu)我說下我的看法
數(shù)據(jù)庫+前端技術(shù)+后臺(tái)處理技術(shù)。
上面的這些我就不說了。用來用去就是那幾個(gè),你覺得那個(gè)用的順手就行了。
搜索引擎技術(shù)呢,我覺得要點(diǎn)是:
1。把我們分散的數(shù)據(jù)資源整合起來-----對應(yīng)于Lucene的Index也就是索引的意思。
我們把數(shù)據(jù)庫的數(shù)據(jù),按照自己的方式進(jìn)行索引,關(guān)于索引的技術(shù)可以上網(wǎng)查看。這些索引的數(shù)據(jù)結(jié)構(gòu)是可以自己定義的,這樣方便查詢。
2。搜索技術(shù),因?yàn)槲覀兊馁Y源太分散了,就拿數(shù)據(jù)里面的資源來說吧,每個(gè)表都不同,里面的字段都不同,如果單純采用數(shù)據(jù)庫來做的話,你可能要寫很多個(gè)api進(jìn)行搜索。并對搜索結(jié)果進(jìn)行出里,這樣我們就要自己做很多事情。這么麻煩的話,我們何不把這些數(shù)據(jù)庫里面的數(shù)據(jù)進(jìn)行索呢,把我們需要的數(shù)據(jù),歸類,整理,然后保存到索引中,雖然這樣會(huì)增加磁盤的容量,但我覺得這應(yīng)該就不是問題。
對于搜索技術(shù),我們這里又要涉及到關(guān)于分詞的技術(shù),因?yàn)槲覀冎形牟煌笪模瑢Ψ衷~技術(shù)的要求比較高。在這里,我也只是略微看了下Lucene的理論,具體實(shí)現(xiàn),我也很模糊。如果分詞分的好,對于搜索精度是有很大幫助的。
3。說實(shí)話索引就是一個(gè)數(shù)據(jù)庫。他可以更新,刪除,修改等。
先記錄下這么多,以后在項(xiàng)目中實(shí)踐的時(shí)候,繼續(xù)說說我的理解
理解可能偏差比較大。大家不要被我誤導(dǎo)啊。
不錯(cuò)的關(guān)于lucene英文書 點(diǎn)此下載。