我的蛋殼

          倡導自由、開放、分享的Java技術社區 http://www.javaread.com

           

          好東西,是要和朋友分享的哦:Ictclas4j中文分詞系統

                 Ictclas4j中文分詞系統是sinboy在中科院張華平和劉群老師的研制的FreeICTCLAS的基礎上完成的一個java開源分詞項目,簡化了原分詞程序的復雜度,旨在為廣大的中文分詞愛好者一個更好的學習機會。

          關于ICTCLAS分詞系統的討論,可以訪問google group關于ictclas分詞系統的討論組http://groups.google.com/group/ictclas

          另外“春江潤楠”大哥對它還做了一些改造,大家可以參閱一下:http://chenyr.spaces.live.com/blog/cns!7BF57CE83A7A863D!394.entry

          下載地址:http://code.google.com/p/ictclas4j/downloads/list

          另外還有個挺不錯的開源項目MMSeg,用起來也蠻簡單,分詞的正確度還不錯,有興趣的朋友也可以參考一下:

          MMSeg,挺不錯的一個開放源代碼的中文分詞軟件包



          本文作者:javaread.com

          posted on 2008-08-02 22:01 javaread.com 閱讀(1515) 評論(1)  編輯  收藏

          評論

          # re: 好東西,是要和朋友分享的哦:Ictclas4j中文分詞系統 2008-08-02 22:06 kenlee14

          還不錯,不過相較之下,我更喜歡MMSeg,提供了豐富的chunk和rule,一般都可以滿足項目的需求。如果對詞庫結構不滿意的話,還可以變更詞庫結構,源代碼只要簡單修改存儲對象和讀取方式就可以啦。
          不過--還沒弄明白chars.lex這個詞庫文件是來干嘛的,研究ing。  回復  更多評論   


          只有注冊用戶登錄后才能發表評論。


          網站導航:
           

          導航

          統計

          常用鏈接

          留言簿(3)

          隨筆檔案

          Java

          友情鏈接

          搜索

          最新評論

          閱讀排行榜

          評論排行榜

          主站蜘蛛池模板: 南昌市| 吉水县| 汤阴县| 旺苍县| 廊坊市| 张家港市| 阆中市| 宣城市| 轮台县| 汶上县| 行唐县| 那坡县| 蒙山县| 介休市| 杭州市| 恩平市| 襄汾县| 南宫市| 新绛县| 晋州市| 股票| 尉犁县| 盘锦市| 宜良县| 来凤县| 嘉善县| 南雄市| 公安县| 宝坻区| 永顺县| 疏勒县| 三明市| 巴青县| 榆社县| 贡觉县| 新巴尔虎右旗| 清涧县| 民和| 封丘县| 贵阳市| 讷河市|