csusky

          常用鏈接

          統計

          最新評論

          Lucene索引文件的格式

          segments文件的格式: (段的信息)
          int:  =-1    查看文件是否是Lucene合法的文件格式
          long:        版本號,每更新一次該文件將會將版本號加1
          int:         用來命名新段
          int:         段的數目
          String + int 段的信息 String是段的名稱  int是段中所含的doc數目
          String + int 同上


          .fnm的文件格式:   (Field的信息)
          int:               Field的個數,最少為1,最少有一個Field("",false),在初始化的時候寫入(暫時不知道原因); 名稱為空字符串,未索引,        未               向           量化。readVInt()讀取
          String: byte      String是 Field的名稱  byte指示該Field 是否被索引,是否向量化 (值有:11,10,01)第一個1代表被索引,第二個代表被向量化
          String: byte Field 同上
               

           

          .fdx的文件格式:主要是提供對.fdt中存儲的document的隨即讀取
          long :       第一個document在.fdt文件中的位置
          long:        第二個document在.fdt文件中的位置


          .fdt的文件格式:  .fdt文件存儲了一系列document的信息
          VInt:        該document中的isStored屬性為true的域的個數
          (VInt:)      如果該field的isStored屬性為true則得到該field的fieldNumber,暫時不知道這個fieldNumber是怎么產生的,有什么用,初步估計是按照field創建的順序產生的,每次再上一個field的fieldNumber基礎上加1。
          byte:        如果該field的isTokenized屬性為true寫入1否則寫入false。
          String:      該field的stringValue()值。
          一個document結束,下面的數據將會開始一個新的document,每個新的document的開始點的文件位置都會在.fdx中有記載,便于隨即訪問

           

          posted on 2008-04-21 17:52 曉宇 閱讀(483) 評論(0)  編輯  收藏 所屬分類: LUCENE

          主站蜘蛛池模板: 特克斯县| 醴陵市| 渭源县| 广安市| 江达县| 海宁市| 漳州市| 白沙| 长武县| 阜新| 海原县| 饶阳县| 黑龙江省| 漳平市| 平江县| 高邮市| 岫岩| 玛纳斯县| 遵义县| 漳平市| 嘉义市| 岳阳县| 大名县| 临邑县| 青海省| 东台市| 成都市| 吕梁市| 南昌市| 弥勒县| SHOW| 东港市| 阳江市| 三原县| 屯门区| 玛纳斯县| 邢台县| 孟村| 稻城县| 嵩明县| 宜昌市|