隨筆 - 2  文章 - 1  trackbacks - 0
          <2011年6月>
          2930311234
          567891011
          12131415161718
          19202122232425
          262728293012
          3456789

          常用鏈接

          留言簿

          隨筆檔案

          搜索

          •  

          最新評論

          閱讀排行榜

          評論排行榜

          ICTCLAS是中科院計算所出品的中文分詞程序包,在國內一直有著良好的口碑和很高的使用率。
          對于一個測試語句

          原字符串:一塊勤奮地漂亮的一塊錢,/打造經濟的航空母艦。ABCD.#$% Hello World!\n又一段文本123輛 !3.0

          其中包含了中文,英文,標點符號,亂七八糟符號及阿拉伯數字。


          結果:一塊/s 勤奮/a 地/u 漂亮/a 的/u 一/m 塊/q 錢/n ,/w //nx 打造/v 經濟/n 的/u 航空母艦/n 。/w ABCD.#$%/nx Hello/nx World/nx !/w 又/d 一/m 段/q 文本/n 123/m 輛/q


          可以發現在ABCD.#$%/nx的分詞結果有點不對,并沒有很好的把英文單詞和其他字符很好的分開.

          在此處我加入了一個驗證機制,修改過后的分詞結果為:

          一塊/s 勤奮/a 地/u 漂亮/a 的/u 一/m 塊/q 錢/n ,/w //nx 打造/v 經濟/n 的/u 航空母艦/n 。/w ABCD/nx .#$%/un Hello/nx World/nx !/w 又/d 一/m 段/q 文本/n 123/m 輛/q

          其中的/un表示未知字符的意思.


          posted on 2011-06-23 12:59 coolnothing 閱讀(265) 評論(1)  編輯  收藏

          FeedBack:
          # re: 關于中科院ICTCLAS4J的一點小改動 2011-11-10 16:55 我去~
          呵呵 你這篇文章夠逗樂的 意淫呢?  回復  更多評論
            

          只有注冊用戶登錄后才能發表評論。


          網站導航:
           
          主站蜘蛛池模板: 池州市| 辉县市| 阿荣旗| 新晃| 云阳县| 上林县| 宝坻区| 武城县| 元氏县| 铜鼓县| 贺兰县| 竹北市| 南和县| 呼玛县| 房山区| 阳曲县| 鄂托克前旗| 株洲县| 广水市| 滁州市| 沭阳县| 舒兰市| 贺兰县| 炎陵县| 大兴区| 淳化县| 瑞金市| 青铜峡市| 岗巴县| 平湖市| 馆陶县| 津市市| 台北县| 桐庐县| 临武县| 大姚县| 宁陕县| 邢台县| 孙吴县| 鸡东县| 青冈县|