bbmonkey62笨笨猴

          中文分詞

            BlogJava :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
            2 隨筆 :: 0 文章 :: 38 評論 :: 0 Trackbacks

          2010年8月16日 #

               摘要: 這款發(fā)布的淑珍分詞器版本是1.1.9,完全是基于字典分詞,在提供下載的壓縮包中含有編譯好的jar包和所有的源代碼,可以應(yīng)用于Lucene3.0版本及以上中。
          為了方便根據(jù)自己需要對分詞器進(jìn)行修改,我這里介紹一下淑珍分詞器的核心數(shù)據(jù)結(jié)構(gòu),這個數(shù)據(jù)結(jié)構(gòu)也是當(dāng)初我在寫分詞器的時候,為了解決詞庫條目多和索引速度之間的相互制約而想出來的。
          這個數(shù)據(jù)結(jié)構(gòu)就是將詞庫中的每一個條目以一種特定的結(jié)構(gòu)存儲在JDBM或內(nèi)存中,比如,對一個很常見的條目例子:“男女搭配干活不累”來舉例子,在這種數(shù)據(jù)結(jié)構(gòu)中,將被存儲為如下key-value鍵值對:  閱讀全文
          posted @ 2010-08-16 00:26 bbmonkey62笨笨猴 閱讀(1485) | 評論 (0)編輯 收藏

          2009年4月17日 #

               摘要: 對于搜索引擎而言,如果是提供一個類似于Google那樣的web界面搜索的話,那對搜索結(jié)果進(jìn)行高亮顯示就很重要且必要了,不然將是非常不友好的,本篇文章就是介紹在lucene中應(yīng)用HighLighter時的一些方面;文章分兩部分,第一部分是介紹如何在lucene中應(yīng)用Highlighter進(jìn)行高亮顯示而不影響到搜索速度。第二部分則是對一些高亮錯誤現(xiàn)象進(jìn)行分析并給出解決方法,以及糾正對高亮錯誤存在的認(rèn)識誤區(qū)。總之,這篇文章就是希望能徹底解決在lucene中應(yīng)用高亮顯示所遇到的一切問題!另外淑珍分詞器也發(fā)布了新的版本ShuzhenAnalyzer-1.1.7,也給出了一個淑珍分詞器的演示地址
            閱讀全文
          posted @ 2009-04-17 00:49 bbmonkey62笨笨猴 閱讀(1882) | 評論 (3)編輯 收藏

          列出全部內(nèi)容  
          主站蜘蛛池模板: 四会市| 万安县| 油尖旺区| 晋城| 修文县| 甘南县| 普安县| 芒康县| 宁城县| 来凤县| 马尔康县| 潼关县| 洛浦县| 吉林省| 闵行区| 扶余县| 阳泉市| 清水县| 钦州市| 常熟市| 久治县| 定陶县| 治县。| 龙胜| 双流县| 南开区| 蒙自县| 广昌县| 临夏市| 仙游县| 盐源县| 前郭尔| 连江县| 佛山市| 古浪县| 伊宁县| 昂仁县| 嘉义县| 区。| 丹寨县| 成都市|