csusky

          常用鏈接

          統計

          最新評論

          Lucene索引文件的格式

          segments文件的格式: (段的信息)
          int:  =-1    查看文件是否是Lucene合法的文件格式
          long:        版本號,每更新一次該文件將會將版本號加1
          int:         用來命名新段
          int:         段的數目
          String + int 段的信息 String是段的名稱  int是段中所含的doc數目
          String + int 同上


          .fnm的文件格式:   (Field的信息)
          int:               Field的個數,最少為1,最少有一個Field("",false),在初始化的時候寫入(暫時不知道原因); 名稱為空字符串,未索引,        未               向           量化。readVInt()讀取
          String: byte      String是 Field的名稱  byte指示該Field 是否被索引,是否向量化 (值有:11,10,01)第一個1代表被索引,第二個代表被向量化
          String: byte Field 同上
               

           

          .fdx的文件格式:主要是提供對.fdt中存儲的document的隨即讀取
          long :       第一個document在.fdt文件中的位置
          long:        第二個document在.fdt文件中的位置


          .fdt的文件格式:  .fdt文件存儲了一系列document的信息
          VInt:        該document中的isStored屬性為true的域的個數
          (VInt:)      如果該field的isStored屬性為true則得到該field的fieldNumber,暫時不知道這個fieldNumber是怎么產生的,有什么用,初步估計是按照field創建的順序產生的,每次再上一個field的fieldNumber基礎上加1。
          byte:        如果該field的isTokenized屬性為true寫入1否則寫入false。
          String:      該field的stringValue()值。
          一個document結束,下面的數據將會開始一個新的document,每個新的document的開始點的文件位置都會在.fdx中有記載,便于隨即訪問

           

          posted on 2008-04-21 17:52 曉宇 閱讀(488) 評論(0)  編輯  收藏 所屬分類: LUCENE

          主站蜘蛛池模板: 宣恩县| 东莞市| 永宁县| 句容市| 郎溪县| 姚安县| 濉溪县| 龙井市| 太保市| 交口县| 云霄县| 定西市| 新源县| 崇信县| 边坝县| 兴文县| 平乐县| 梁平县| 虎林市| 朝阳区| 蒙城县| 兴城市| 金寨县| 邢台市| 桂东县| 鄄城县| 桃园县| 仪陇县| 安达市| 凤凰县| 二连浩特市| 瓦房店市| 青河县| 海伦市| 西平县| 林甸县| 京山县| 长沙市| 剑河县| 聂拉木县| 裕民县|