csusky

          常用鏈接

          統計

          最新評論

          Lucene索引文件的格式

          segments文件的格式: (段的信息)
          int:  =-1    查看文件是否是Lucene合法的文件格式
          long:        版本號,每更新一次該文件將會將版本號加1
          int:         用來命名新段
          int:         段的數目
          String + int 段的信息 String是段的名稱  int是段中所含的doc數目
          String + int 同上


          .fnm的文件格式:   (Field的信息)
          int:               Field的個數,最少為1,最少有一個Field("",false),在初始化的時候寫入(暫時不知道原因); 名稱為空字符串,未索引,        未               向           量化。readVInt()讀取
          String: byte      String是 Field的名稱  byte指示該Field 是否被索引,是否向量化 (值有:11,10,01)第一個1代表被索引,第二個代表被向量化
          String: byte Field 同上
               

           

          .fdx的文件格式:主要是提供對.fdt中存儲的document的隨即讀取
          long :       第一個document在.fdt文件中的位置
          long:        第二個document在.fdt文件中的位置


          .fdt的文件格式:  .fdt文件存儲了一系列document的信息
          VInt:        該document中的isStored屬性為true的域的個數
          (VInt:)      如果該field的isStored屬性為true則得到該field的fieldNumber,暫時不知道這個fieldNumber是怎么產生的,有什么用,初步估計是按照field創建的順序產生的,每次再上一個field的fieldNumber基礎上加1。
          byte:        如果該field的isTokenized屬性為true寫入1否則寫入false。
          String:      該field的stringValue()值。
          一個document結束,下面的數據將會開始一個新的document,每個新的document的開始點的文件位置都會在.fdx中有記載,便于隨即訪問

           

          posted on 2008-04-21 17:52 曉宇 閱讀(488) 評論(0)  編輯  收藏 所屬分類: LUCENE

          主站蜘蛛池模板: 金华市| 娄底市| 格尔木市| 岱山县| 镇安县| 西华县| 礼泉县| 鄂尔多斯市| 武清区| 颍上县| 南安市| 宾川县| 开江县| 新龙县| 随州市| 垦利县| 准格尔旗| 壤塘县| 鄱阳县| 柏乡县| 奇台县| 独山县| 中山市| 浦东新区| 云林县| 巩义市| 金山区| 赤水市| 文化| 莱芜市| 基隆市| 榆树市| 郑州市| 丹凤县| 正镶白旗| 韶山市| 湘潭市| 太康县| 西昌市| 垫江县| 尉氏县|