posts - 134,comments - 22,trackbacks - 0
          1。http://www.chinesecomputing.com/nlp/segment.html

          此鏈接介紹了很多分詞資源。注意看其第二項(A Simplified Chinese Segmenter written in Perl )。里面有Perl和Java版的簡體中文分詞程序,完全free。我試了一下,效果不錯。網(wǎng)上很多人向Lucene中添加中文分詞時用的都是中科院ICTCLAS的接口。而中科院的ICTCLAS本身使用c++開發(fā),所以用JNI給包裝起來之后,當(dāng)分詞時就問題百出,非常不穩(wěn)定。當(dāng)時我做實驗室的一個小DD用的也是這個接口,是北師大陳天封裝,分詞會經(jīng)常出問題,當(dāng)然責(zé)任不在陳天。我也專門就如何在Lucene中添加中文分詞程序?qū)戇^一篇文章,介紹如何在Lucene中使用ICTCLAS添加中文分詞。后來有很多讀者給我發(fā)Email探討這個問題,為什么他們的就有問題。其實我用時也有時會有問題。這里你可以使用我所推薦替代那個免費(fèi)的而且不好用的用JNI封裝的令人抓狂的ICTCLAS。

          但是本人沒有對多線程進(jìn)行測試,只是順便用了一下。哪位達(dá)人試過確實好用,一定不要忘了告訴我。

          2。http://www.fajava.cn/products_01.asp

          推薦您采用第三代智能分詞系統(tǒng)3GWS(the 3rd Generation Word Segmenter)。據(jù)說是ICTCLAS3.0的商用版本。參見:http://www.fajava.cn/products_01.asp 提供Linux/Windows下的API,可以試用。這是Blog上別人留的言,我沒有試過。

          3 中文分詞免費(fèi)版 (Nice thing)
          http://lovinger2000.cnblogs.com/archive/2006/03/02/ChineseTokenizerDll.html

          4. 中國科學(xué)院計算所漢語詞法分析系統(tǒng) ICTCLAS
          http://www.nlp.org.cn/project/project.php?proj_id=6
          5. 海量智能分詞研究版
          http://www.hylanda.com/cgi-bin/download/download.asp?id=8
          6 .CSW中文智能分詞組件
          http://www.vgoogle.net/
          7. C# 寫的中文分詞組件
          http://www.rainsts.net/article.asp?id=48



          Trackback: http://tb.donews.net/TrackBack.aspx?PostId=865217
          posted on 2009-03-02 19:22 何克勤 閱讀(857) 評論(1)  編輯  收藏

          FeedBack:
          # re: 中文分詞免費(fèi)源碼資源
          2014-03-27 16:27 | 8888
          中文分詞免費(fèi)源碼資源  回復(fù)  更多評論
            

          只有注冊用戶登錄后才能發(fā)表評論。


          網(wǎng)站導(dǎo)航:
           
          主站蜘蛛池模板: 抚松县| 宁陵县| 乌海市| 佛坪县| 阿瓦提县| 平遥县| 芒康县| 蛟河市| 湄潭县| 神池县| 荣成市| 正定县| 武清区| 平陆县| 根河市| 房产| 礼泉县| 渝北区| 台山市| 兖州市| 湄潭县| 鄄城县| 孟津县| 西乌珠穆沁旗| 陕西省| 潍坊市| 抚宁县| 始兴县| 黎城县| 河北区| 汕头市| 景泰县| 长葛市| 苗栗市| 浦北县| 额济纳旗| 柳林县| 浮山县| 长岛县| 阳朔县| 岗巴县|