csusky

          常用鏈接

          統計

          最新評論

          Lucene索引文件的格式

          segments文件的格式: (段的信息)
          int:  =-1    查看文件是否是Lucene合法的文件格式
          long:        版本號,每更新一次該文件將會將版本號加1
          int:         用來命名新段
          int:         段的數目
          String + int 段的信息 String是段的名稱  int是段中所含的doc數目
          String + int 同上


          .fnm的文件格式:   (Field的信息)
          int:               Field的個數,最少為1,最少有一個Field("",false),在初始化的時候寫入(暫時不知道原因); 名稱為空字符串,未索引,        未               向           量化。readVInt()讀取
          String: byte      String是 Field的名稱  byte指示該Field 是否被索引,是否向量化 (值有:11,10,01)第一個1代表被索引,第二個代表被向量化
          String: byte Field 同上
               

           

          .fdx的文件格式:主要是提供對.fdt中存儲的document的隨即讀取
          long :       第一個document在.fdt文件中的位置
          long:        第二個document在.fdt文件中的位置


          .fdt的文件格式:  .fdt文件存儲了一系列document的信息
          VInt:        該document中的isStored屬性為true的域的個數
          (VInt:)      如果該field的isStored屬性為true則得到該field的fieldNumber,暫時不知道這個fieldNumber是怎么產生的,有什么用,初步估計是按照field創建的順序產生的,每次再上一個field的fieldNumber基礎上加1。
          byte:        如果該field的isTokenized屬性為true寫入1否則寫入false。
          String:      該field的stringValue()值。
          一個document結束,下面的數據將會開始一個新的document,每個新的document的開始點的文件位置都會在.fdx中有記載,便于隨即訪問

           

          posted on 2008-04-21 17:52 曉宇 閱讀(483) 評論(0)  編輯  收藏 所屬分類: LUCENE

          主站蜘蛛池模板: 玛沁县| 松桃| 邹平县| 阳江市| 芷江| 普陀区| 夏邑县| 襄樊市| 沅陵县| 墨竹工卡县| 万宁市| 灵山县| 漠河县| 沙河市| 文水县| 西丰县| 博湖县| 偃师市| 南皮县| 广德县| 中西区| 沛县| 德格县| 绥中县| 桦川县| 城口县| 阿图什市| 土默特左旗| 大邑县| 威远县| 那曲县| 乳源| 布尔津县| 石景山区| 武川县| 沙湾县| 桃源县| 宁乡县| 遂川县| 西丰县| 皋兰县|