馬可波羅的夢鄉

          BlogJava 首頁 新隨筆 聯系 聚合 管理
            4 Posts :: 50 Stories :: 2 Comments :: 0 Trackbacks
          Luke
          雖然剛剛開始,但是可以確定這是一個非常有用的工具。通過這個工具也可以更深入地了解Lucene的索引機制。
          Luke具有解釋文檔評分機制的特性,可以幫助我們了解文檔的評分機制

          1、在Document標簽可以看到,每個document都有對應的Flag。Flag的意義做如下摘錄(之前沒有這個概念啊,看這個頁面才知道這個概念的)
          ITSVopfOLBC
          I: indexed,    T:Tokenized(是分詞的意思吧。我原來設置docName需要分詞,而url就不需要分詞了)   S:Stored (都是存下來了吧,設置不存,會找不到記錄?可以通過分詞后的term找到該doc,但是docName得不到,因為沒有設置為Store,貌似遇到過這個問題)
          V:Term Vector(詞向量?這個名詞看起來有些高深...)   o: offset   p:positions
          O:Omit Norms
          f:Omit TF(tf是term出現的頻率?)
          L: Lazy 這個是干什么,刪除時的標記嗎? 為了提升效率好像開始刪除時,并沒有真正刪除,而僅僅是做了一個標記。最后優化時,才會做物理刪除(對Flash的處理用這種方式挺多的,可以深入研究這種機制)
          posted on 2009-09-23 06:03 夢回唐朝 閱讀(143) 評論(0)  編輯  收藏 所屬分類: Tools

          只有注冊用戶登錄后才能發表評論。


          網站導航:
           
          主站蜘蛛池模板: 泸西县| 秦皇岛市| 栾川县| 横峰县| 常山县| 呼和浩特市| 平泉县| 宝兴县| 观塘区| 江北区| 富蕴县| 枣强县| 临猗县| 延寿县| 乐平市| 丹巴县| 雅安市| 樟树市| 馆陶县| 黄大仙区| 广河县| 普格县| 肥西县| 岳普湖县| 隆昌县| 鄂尔多斯市| 板桥市| 巴东县| 海淀区| 贵港市| 新平| 上杭县| 肃宁县| 彭泽县| 固始县| 荔波县| 绿春县| 玉田县| 新乡县| 安福县| 正镶白旗|