bbmonkey62笨笨猴

          中文分詞

            BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
            2 隨筆 :: 0 文章 :: 38 評論 :: 0 Trackbacks

          08 2010 檔案

               摘要: 這款發布的淑珍分詞器版本是1.1.9,完全是基于字典分詞,在提供下載的壓縮包中含有編譯好的jar包和所有的源代碼,可以應用于Lucene3.0版本及以上中。
          為了方便根據自己需要對分詞器進行修改,我這里介紹一下淑珍分詞器的核心數據結構,這個數據結構也是當初我在寫分詞器的時候,為了解決詞庫條目多和索引速度之間的相互制約而想出來的。
          這個數據結構就是將詞庫中的每一個條目以一種特定的結構存儲在JDBM或內存中,比如,對一個很常見的條目例子:“男女搭配干活不累”來舉例子,在這種數據結構中,將被存儲為如下key-value鍵值對:  閱讀全文
          posted @ 2010-08-16 00:26 bbmonkey62笨笨猴 閱讀(1485) | 評論 (0)  編輯

          主站蜘蛛池模板: 保康县| 扶风县| 尼木县| 米易县| 慈利县| 太保市| 滦南县| 辰溪县| 红安县| 志丹县| 夹江县| 财经| 额济纳旗| 石城县| 望城县| 进贤县| 瓦房店市| 呼和浩特市| 漠河县| 太谷县| 五家渠市| 紫阳县| 福清市| 巴青县| 西乌珠穆沁旗| 游戏| 新邵县| 中西区| 星子县| 县级市| 东乌珠穆沁旗| 库尔勒市| 连江县| 京山县| 益阳市| 罗江县| 阳新县| 新竹县| 化州市| 兴山县| 仪征市|