盡量保證每一篇文章都是我自己寫的,希望每一文章都不浪費大家的時間。

          搜索的前提:建立索引

          Posted on 2007-01-30 14:10 王睿 閱讀(464) 評論(0)  編輯  收藏 所屬分類: 搜索技術(shù)



          建立索引的三大步
          index1.1.JPG

          1.?????? 數(shù)據(jù)轉(zhuǎn)換

          Lucene 只支持text格式,所以要想對其他非text格式的文檔建立索引,首先的進行轉(zhuǎn)換。轉(zhuǎn)換后生成Document對象。

          2.?????? Document 分析

          Document 分析的過程是一個規(guī)范化,去糟粕取精華的過程。比如:全部轉(zhuǎn)為小寫(Wangwang),轉(zhuǎn)為原型(runningrun),去除連接詞(aan、的)等等。

          3.?????? 寫索引文件

          以反向索引的數(shù)據(jù)結(jié)構(gòu)存儲。


          只有注冊用戶登錄后才能發(fā)表評論。


          網(wǎng)站導(dǎo)航:
           
          主站蜘蛛池模板: 旌德县| 赣州市| 新野县| 青川县| 太湖县| 城口县| 峨边| 四川省| 武乡县| 信阳市| 大兴区| 安吉县| 汕尾市| 平塘县| 聂荣县| 莫力| 西贡区| 萝北县| 巩留县| 博野县| 门头沟区| 时尚| 台湾省| 宁蒗| 沙洋县| 新绛县| 阳曲县| 洛隆县| 安徽省| 贡嘎县| 永康市| 晋宁县| 额尔古纳市| 招远市| 山西省| 双鸭山市| 田东县| 酒泉市| 漳浦县| 渑池县| 汝南县|