隨筆 - 17  文章 - 84  trackbacks - 0
          <2007年6月>
          272829303112
          3456789
          10111213141516
          17181920212223
          24252627282930
          1234567

          如非特別說明,所有文章均為原創。如需引用,請注明出處
          Email:liangtianyu@gmail.com
          MSN:terry.liangtianyu@hotmail.com

          常用鏈接

          留言簿(4)

          隨筆分類(12)

          隨筆檔案(17)

          最新隨筆

          搜索

          •  

          積分與排名

          • 積分 - 51902
          • 排名 - 962

          最新評論

          閱讀排行榜

          評論排行榜

          倒排文件(Inverted file)描述了一個詞項集合(TERMS)元素和一個文檔集合(DOCS)元素對應關系的數據結構。在倒排文件中,可以直接給出一個Term出現在哪些Document中,和在某個Document中出現的位置和頻率。在Lucene 2.1中InvertDoucment會對文檔進行倒排處理。
          下面是信息檢索研究中常用的幾個相關量:
           

          N:文檔集合的大小

          M:詞項集合的大小

          Sj=|PLtj|:詞項tj所涉及文檔的個數

          DFtj=sj/N:詞項tj的文檔頻率

          IDFtj=-logDFtj):倒置文檔頻率;其值越小表示出現的頻率越高

          fi,j:第j個詞項tj在第i個文檔di中出現的次數

          TN= fi,j:系統所有文檔分解后包含詞項的總量(包括重復,即一個多重集(multi-set))

          TFtj= fi,j/TN:詞項tj在文檔中出現的頻度(詞頻)

          ITFtj=logTFtj):倒置詞頻;越小表示出現的頻率越高

          倒排文件分為兩部分:第一部分是由不同詞項組成的索引,稱為詞表(Vocabulary),第二部分由每個詞項出現過的文檔集合構成,稱為記錄文件(Posting File),每個詞項的對應部分稱為倒排表(Posting Lists),可以通過詞表訪問。
          posted on 2007-06-11 08:14 Terry Liang 閱讀(2708) 評論(0)  編輯  收藏 所屬分類: Lucene 2.1研究
          主站蜘蛛池模板: 黎川县| 封丘县| 巴中市| 留坝县| 鹤岗市| 寿宁县| 蓬莱市| 奉节县| 百色市| 庆云县| 五大连池市| 永安市| 福州市| 昭觉县| 玉环县| 拉孜县| 龙岩市| 镇沅| 眉山市| 买车| 上思县| 塔城市| 惠安县| 湘乡市| 泸西县| 横山县| 三都| 漳平市| 淳安县| 济源市| 仁化县| 宾阳县| 获嘉县| 余姚市| 苏尼特左旗| 富顺县| 西华县| 绥棱县| 杂多县| 上饶市| 米泉市|