bbmonkey62笨笨猴

          中文分詞

            BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
            2 隨筆 :: 0 文章 :: 38 評論 :: 0 Trackbacks

          2010年8月16日 #

               摘要: 這款發布的淑珍分詞器版本是1.1.9,完全是基于字典分詞,在提供下載的壓縮包中含有編譯好的jar包和所有的源代碼,可以應用于Lucene3.0版本及以上中。
          為了方便根據自己需要對分詞器進行修改,我這里介紹一下淑珍分詞器的核心數據結構,這個數據結構也是當初我在寫分詞器的時候,為了解決詞庫條目多和索引速度之間的相互制約而想出來的。
          這個數據結構就是將詞庫中的每一個條目以一種特定的結構存儲在JDBM或內存中,比如,對一個很常見的條目例子:“男女搭配干活不累”來舉例子,在這種數據結構中,將被存儲為如下key-value鍵值對:  閱讀全文
          posted @ 2010-08-16 00:26 bbmonkey62笨笨猴 閱讀(1485) | 評論 (0)編輯 收藏

          主站蜘蛛池模板: 隆林| 上栗县| 宜宾市| 西盟| 翁源县| 崇明县| 罗甸县| 武汉市| 陇川县| 武强县| 海林市| 桐乡市| 炎陵县| 英德市| 玛多县| 航空| 北安市| 洪洞县| 体育| 容城县| 彰化市| 江油市| 韶山市| 锡林浩特市| 宁强县| 河源市| 德化县| 大宁县| 水城县| 铜鼓县| 清水县| 安丘市| 柞水县| 宣恩县| 本溪市| 彭山县| 云林县| 竹北市| 丹江口市| 博白县| 西畴县|