csusky

          常用鏈接

          統(tǒng)計(jì)

          最新評(píng)論

          Lucene的切詞 analysis包

          在搜索引擎中,切詞語是一個(gè)重要的部分,其中包括專有名詞的提取、詞的分割、詞的格式化等等。
          TokenStream 類幾乎是所有這些類的基類
          有兩個(gè)需要被子類實(shí)現(xiàn)的方法Token next() 和 close()
          首先來看analysis包,這個(gè)包主要是提供一些簡單的詞匯化處理
          Tokenizer結(jié)尾的類是將要處理的字符串進(jìn)行分割成Token流,而根據(jù)分割的依據(jù)的又產(chǎn)生了以下幾個(gè)Tokenizer類
          首先Tokenizer類是所有以Tokenizer結(jié)尾的類的基
          然后是CharTokenizer,所有的以Tokenizer結(jié)尾的類都是從這個(gè)類繼承的
          這個(gè)類中有一個(gè)抽象方法
            protected abstract boolean isTokenChar(char c);
          另外一個(gè)需要被子類覆寫的方法
            protected char normalize(char c) {};
          是對(duì)單個(gè)字符進(jìn)行處理的方法譬如說將英文字母全部轉(zhuǎn)化為小寫

          還有一個(gè)變量
          protected Reader input;
          這個(gè)讀取器是這些類所處理的數(shù)據(jù)的   數(shù)據(jù)源
          輸入一個(gè)Reader ,產(chǎn)生一個(gè)Token流


          這個(gè)方法是是否進(jìn)行切分的依據(jù),依次讀取char流,然后用這個(gè)方法對(duì)每個(gè)char進(jìn)行檢測,如果返回false則將預(yù)先存儲(chǔ)在
          詞匯緩沖區(qū)中的char數(shù)組作為一個(gè)Token返回
          LetterTokenizer :
                protected boolean isTokenChar(char c) {
                        return Character.isLetter(c);
                }
          WhitespaceTokenizer:
                protected boolean isTokenChar(char c) {
                        return !Character.isWhitespace(c);
                } 
          LowerCaseTokenizer extends LetterTokenizer:
          protected char normalize(char c) {
                return Character.toLowerCase(c);
             }

             在構(gòu)造函數(shù)中調(diào)用super(in);進(jìn)行和 LetterTokenizer同樣的操作,但是在詞匯化之前所有的詞都轉(zhuǎn)化為小寫了
           
          然后是以Filter結(jié)尾的類,這個(gè)類簇主要是對(duì)已經(jīng)詞匯化的Token流進(jìn)行進(jìn)一步的處理
           輸入是Token流 , 輸出仍然是Token流。
          TokenFilter extends TokenStream  是所有這些類的父類
          protected TokenStream input;
          在TokenFilter 中有一個(gè)TokenStream 變量,是Filter類簇處理的數(shù)據(jù)源,而Filter類簇又是繼承了TokenStream 類的
          有一個(gè)public final Token next()方法,這個(gè)方法以TokenStream.next()產(chǎn)生的Token流 為處理源,產(chǎn)生的仍然是Token流
          只不過中間有一些處理的過程
          LowerCaseFilter:將所有的Token流的轉(zhuǎn)化為小寫
               t.termText = t.termText.toLowerCase();
          StopFilter:過濾掉一些停止詞,這些停止詞由構(gòu)造函數(shù)指定
               for (Token token = input.next(); token != null; token = input.next())
                if (!stopWords.contains(token.termText))
                  return token;


          比較一下Tokenizer類簇和Filter類簇,可以知道
          Tokenizer類簇主要是對(duì)輸入的Reader流,實(shí)際上是字符流按照一定的規(guī)則進(jìn)行分割,產(chǎn)生出Token流
          其輸入是字符串的Reader流形式,輸出是Token流

          Filter類簇主要是對(duì)輸入的Token流進(jìn)行更進(jìn)一步的處理,如去除停止詞,轉(zhuǎn)化為小寫
          主要為一些格式化操作。
          由于Filter類簇的輸入輸出相同,所以可以嵌套幾個(gè)不同的Filter類,以達(dá)到預(yù)期的處理目的。
          前一個(gè)Filter類的輸出作為后一個(gè)Filter類的輸入
          而Tokenizer類簇由于輸入輸出不同,所以不能嵌套







          posted on 2008-05-30 14:47 曉宇 閱讀(1034) 評(píng)論(1)  編輯  收藏 所屬分類: LUCENE

          評(píng)論

          # re: Lucene的切詞 analysis包 2009-06-02 12:56 啊啊啊

          強(qiáng),真是我需要的  回復(fù)  更多評(píng)論   

          主站蜘蛛池模板: 高平市| 大名县| 和顺县| 广德县| 新丰县| 马关县| 乐亭县| 商都县| 通渭县| 卫辉市| 华坪县| 荃湾区| 杭锦后旗| 天门市| 玉树县| 堆龙德庆县| 夏河县| 黄骅市| 中宁县| 云南省| 遵义县| 卫辉市| 潞城市| 海晏县| 浦北县| 友谊县| 宝坻区| 胶州市| 辽阳市| 察雅县| 大埔县| 灌南县| 云龙县| 台州市| 茂名市| 沾益县| 广平县| 泊头市| 安徽省| 临江市| 防城港市|