有個空間

有個標題

My Links

Blog Stats

Posts - 5
Stories - 36
Comments - 3
Trackbacks - 0

常用鏈接

留言簿(2)

隨筆分類(2)

隨筆檔案(3)

文章分類(34)

文章檔案(38)

Links

w3school
中文愛百科
--可信賴的中文百科全書
豆瓣
--電影閱讀

搜索

閱讀排行榜

評論排行榜

lucene使用小記

幾點小體會，先記下，不知道對不對。
網(wǎng)上說lucene是一個半成品，深有體會。
1.lucene是一種全文搜索技術，詞元是一個單詞（word）。試圖搜索一個單詞的一部分或一個字母，是沒有意義的，lucene也不能實現(xiàn)。除非你是想搜索一個單詞的前綴，用PrefixQuery是可以的。說到底，還是在生成索引的時候的分析器（Analyzer）在作怪。
下面有四個英文分析器：

^分析器	^{內(nèi)部操作步驟}
^{WhitespaceAnalyzer}	^{在空格處進行語匯單元的切分}
^{SimpleAnalyzer}	^{在非字母字符處切分文本，并將其轉(zhuǎn)換為小寫形式}
^StopAnalyzer	^{在非字母字符處切分文本，然后小寫化，再移除停用詞}
^{StandardAnalyzer}	^{基于復雜的語法來實現(xiàn)語匯單元化；這種語法規(guī)則可以識別}^e-mail^{地址、首字母縮寫詞、漢語}^-^日語^-^{漢語字符、字母數(shù)字等；小寫化；并移除停用詞}

    切分出來的就是一個一個詞元，也就是你搜索的最小單位了。不難從上面看出，lucene對亞洲字體支持有限。
    2.試過用StandardAnalyzer分析日文英文文本。日文可以正常搜索，英文字母只能按單詞搜索。
    3.這里說一個奇怪的現(xiàn)象：搜索的時候，比如文本中有"你好bcc"，我搜"好bcc"可以正常搜索，搜"好a"竟然也可以搜到。debug代碼，看到查詢的時候，有一個parse方法（下面說明）竟然把后面的"a"去掉了，真正搜的是"好"。但是搜"好b"或"好d"等都搜不到。奇怪奇怪！
    4.索引好之后，就可以搜索（Query）了。至于Query也有好多種：
     |_______WildcardQuery         （通配符查詢）
     |_______PhraseQuery     (短語查詢) 可以限定兩個term之間的距離
     |_______RangeQuery            (范圍查詢)
     |_______MultiPhraseQuery    （多短語查詢）
     |_______FuzzyQuery            （模糊查詢）
     |_______SpanQuery              （跨度查詢）
     |_______PrefixQuery             （前綴查詢）
    查詢的時候，也會用到上面的Analyzer。根據(jù)Analyzer的不同會對查詢的關鍵詞進行一些處理，比如上面的去掉"a"。然后用處理過的關鍵詞進行查詢。
    5.這里再說一個題外話：什么時候生成索引合適。總不能每次檢索的時候就來一次從頭到尾的生成索引吧，這顯然不合人類工程動力學原理，呵呵：）那初步想法是，先確定你要在那里文件里面搜索，每當你的這些文件有變動時，就觸發(fā)對這個文件的索引。比如，新添文件或文件更新了。這樣檢索的時候，就只管檢索。看似這樣耦合度也低哈：）

posted on 2009-10-22 16:34 游雯閱讀(279) 評論(0) 編輯收藏所屬分類: Java技術

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: Oracle 迭代查詢如何在Oracle中復制表結構和表數(shù)據(jù) linux下如何啟動和關閉weblogic oracle 時間加減綜合 iOS開發(fā)入門－01 mysql 導出導入數(shù)據(jù)及數(shù)據(jù)結構 Spring+Hibernate：在applicationContext.xml中配置C3P0參數(shù)說明 hibernate Restrictions用法 Java開發(fā)WebService實例--計數(shù)器 Linux設置環(huán)境變量