bbmonkey62笨笨猴

          中文分詞

            BlogJava :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
            2 隨筆 :: 0 文章 :: 38 評論 :: 0 Trackbacks

          2009年4月17日 #

               摘要: 這款發(fā)布的淑珍分詞器版本是1.1.9,完全是基于字典分詞,在提供下載的壓縮包中含有編譯好的jar包和所有的源代碼,可以應(yīng)用于Lucene3.0版本及以上中。
          為了方便根據(jù)自己需要對分詞器進(jìn)行修改,我這里介紹一下淑珍分詞器的核心數(shù)據(jù)結(jié)構(gòu),這個(gè)數(shù)據(jù)結(jié)構(gòu)也是當(dāng)初我在寫分詞器的時(shí)候,為了解決詞庫條目多和索引速度之間的相互制約而想出來的。
          這個(gè)數(shù)據(jù)結(jié)構(gòu)就是將詞庫中的每一個(gè)條目以一種特定的結(jié)構(gòu)存儲在JDBM或內(nèi)存中,比如,對一個(gè)很常見的條目例子:“男女搭配干活不累”來舉例子,在這種數(shù)據(jù)結(jié)構(gòu)中,將被存儲為如下key-value鍵值對:  閱讀全文
          posted @ 2010-08-16 00:26 bbmonkey62笨笨猴 閱讀(1485) | 評論 (0)編輯 收藏

               摘要: 對于搜索引擎而言,如果是提供一個(gè)類似于Google那樣的web界面搜索的話,那對搜索結(jié)果進(jìn)行高亮顯示就很重要且必要了,不然將是非常不友好的,本篇文章就是介紹在lucene中應(yīng)用HighLighter時(shí)的一些方面;文章分兩部分,第一部分是介紹如何在lucene中應(yīng)用Highlighter進(jìn)行高亮顯示而不影響到搜索速度。第二部分則是對一些高亮錯誤現(xiàn)象進(jìn)行分析并給出解決方法,以及糾正對高亮錯誤存在的認(rèn)識誤區(qū)。總之,這篇文章就是希望能徹底解決在lucene中應(yīng)用高亮顯示所遇到的一切問題!另外淑珍分詞器也發(fā)布了新的版本ShuzhenAnalyzer-1.1.7,也給出了一個(gè)淑珍分詞器的演示地址
            閱讀全文
          posted @ 2009-04-17 00:49 bbmonkey62笨笨猴 閱讀(1882) | 評論 (3)編輯 收藏

          主站蜘蛛池模板: 内丘县| 江山市| 西贡区| 阳东县| 察隅县| 荆门市| 金秀| 年辖:市辖区| 蓬安县| 修水县| 仁布县| 综艺| 龙井市| 建阳市| 贺州市| 大英县| 航空| 三原县| 安龙县| 蓝田县| 中方县| 方城县| 长岛县| 临西县| 鸡泽县| 克拉玛依市| 康马县| 敦煌市| 长沙县| 循化| 朝阳区| 喀什市| 河源市| 镇赉县| 京山县| 正宁县| 新宾| 江山市| 公安县| 象州县| 来宾市|