馬可波羅的夢鄉

          BlogJava 首頁 新隨筆 聯系 聚合 管理
            4 Posts :: 50 Stories :: 2 Comments :: 0 Trackbacks
          1、分塊索引。為新增文件單獨創建索引,再合并。 (索引優化技術)
          2、只要擴展相應接口,就可以支持新的語言和文件格式。
          3、對每個Lucene例子進行Junit測試,這是一項有意思的測試。 把精力集中到比較小的細節中去,并且可以毫無后顧之憂的修改系統中的部分代碼。
          4、可以通過Lucene官方的PowerBy找到其他一些以Lucene為基礎的開源軟件。
          5、Lucene是Doug妻子的中間名:這也是她祖母的姓。

          Lucene能夠對任意可轉換為文本格式的數據進行索引和搜索

          整個Lucene的核心,就是索引兩個字。
          Directory用于指定索引所在的位置,Query對應于多種實現。

          技術:
          1、Lucene的一個方便之處在于,它允許用于不同Field的Document在一個索引中共存。
          2、一個Document可以有多個Field,而多個Field可以對應于同一個域,如"contents"、"title"。
          3、沒有設置Index的Field是不能設置norm的,Field、Indexed、Norm三者之間的關系是什么?

          索引:
          1、索引是Lucene最核心的東西。最簡單的索引大致如下:以term為entry,命中該term的所有doc是一個列表。這個列表可以是排序的。Lucene的實際索引實現是否也是這樣的。以前在一個IR的ppt中看到,一般的SE索引都是這個結構的,Lucene索引有什么特別之處嗎?這個可以深入了解下的
          2、使用Luke時的一個發現。在Document標簽,可以通過Term遍歷包含該Term的Document列表。點擊show all,這會跳轉到Search標簽。也可以點擊Show Position顯示文檔的位置信息。 這里的term frequency是指 term在文檔中的出現次數。   Lucene中Term對應Document真的是組織成一個列表嗎?或者做過一些優化?
          3、

          關鍵技術:
          1、列舉一些重要的類,也是深入了解Lucene的入口:
          Analyzer分詞器,將文檔(索引時)和查詢字符(查詢時)進行分詞
          Query 查詢條件,可以包含多個Term,進行布爾查詢,區間查詢等。BooleanQuery本身是布爾查詢子句的容器。
          Term 分詞項,對應于索引中的入口?
          Directory 指向索引目錄,可以使FS或RAM等,還可以自己做一些實現,哈哈
          Similarity 用于對詞進行評分。這個地方有很多工作可以做的
          查詢表達式,通過QueryParser可以將表達式轉換為特定的Query對象。比直接調用API要清晰。NOT操作必須和一個其他操作結合,才能用于查詢。

          posted on 2009-09-14 12:01 夢回唐朝 閱讀(408) 評論(0)  編輯  收藏 所屬分類: Lucene

          只有注冊用戶登錄后才能發表評論。


          網站導航:
           
          主站蜘蛛池模板: 房山区| 安宁市| 子洲县| 蚌埠市| 宁武县| 湘阴县| 铁岭县| 新郑市| 桃源县| 和政县| 平乡县| 孝义市| 嘉禾县| 安乡县| 千阳县| 三台县| 遵义市| 枝江市| 清丰县| 岢岚县| 额济纳旗| 宿松县| 克什克腾旗| 惠安县| 东乡县| 时尚| 恩平市| 武平县| 玉门市| 浏阳市| 彭水| 仁化县| 玛纳斯县| 康马县| 永吉县| 阳春市| 阜新| 阳泉市| 鞍山市| 清流县| 临海市|