bbmonkey62笨笨猴

          中文分詞

            BlogJava :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
            2 隨筆 :: 0 文章 :: 38 評論 :: 0 Trackbacks

          2010年8月16日 #

               摘要: 這款發(fā)布的淑珍分詞器版本是1.1.9,完全是基于字典分詞,在提供下載的壓縮包中含有編譯好的jar包和所有的源代碼,可以應用于Lucene3.0版本及以上中。
          為了方便根據自己需要對分詞器進行修改,我這里介紹一下淑珍分詞器的核心數(shù)據結構,這個數(shù)據結構也是當初我在寫分詞器的時候,為了解決詞庫條目多和索引速度之間的相互制約而想出來的。
          這個數(shù)據結構就是將詞庫中的每一個條目以一種特定的結構存儲在JDBM或內存中,比如,對一個很常見的條目例子:“男女搭配干活不累”來舉例子,在這種數(shù)據結構中,將被存儲為如下key-value鍵值對:  閱讀全文
          posted @ 2010-08-16 00:26 bbmonkey62笨笨猴 閱讀(1485) | 評論 (0)編輯 收藏

          2009年4月17日 #

               摘要: 對于搜索引擎而言,如果是提供一個類似于Google那樣的web界面搜索的話,那對搜索結果進行高亮顯示就很重要且必要了,不然將是非常不友好的,本篇文章就是介紹在lucene中應用HighLighter時的一些方面;文章分兩部分,第一部分是介紹如何在lucene中應用Highlighter進行高亮顯示而不影響到搜索速度。第二部分則是對一些高亮錯誤現(xiàn)象進行分析并給出解決方法,以及糾正對高亮錯誤存在的認識誤區(qū)。總之,這篇文章就是希望能徹底解決在lucene中應用高亮顯示所遇到的一切問題!另外淑珍分詞器也發(fā)布了新的版本ShuzhenAnalyzer-1.1.7,也給出了一個淑珍分詞器的演示地址
            閱讀全文
          posted @ 2009-04-17 00:49 bbmonkey62笨笨猴 閱讀(1882) | 評論 (3)編輯 收藏

          僅列出標題  
          主站蜘蛛池模板: 梁山县| 奉化市| 宁化县| 墨竹工卡县| 彭水| 汤原县| 拜泉县| 韩城市| 永吉县| 金湖县| 团风县| 道孚县| 敦煌市| 霍邱县| 五华县| 西和县| 阿瓦提县| 泾源县| 张北县| 巩留县| 南京市| 安国市| 呼和浩特市| 天祝| 康平县| 观塘区| 吉木萨尔县| 盖州市| 白河县| 城固县| 崇州市| 确山县| 丰县| 江达县| 江陵县| 称多县| 绥滨县| 常德市| 峨眉山市| 上犹县| 罗平县|