隨筆 - 2  文章 - 1  trackbacks - 0
          <2011年11月>
          303112345
          6789101112
          13141516171819
          20212223242526
          27282930123
          45678910

          常用鏈接

          留言簿

          隨筆檔案

          搜索

          •  

          最新評論

          閱讀排行榜

          評論排行榜

          ICTCLAS是中科院計算所出品的中文分詞程序包,在國內一直有著良好的口碑和很高的使用率。
          對于一個測試語句

          原字符串:一塊勤奮地漂亮的一塊錢,/打造經濟的航空母艦。ABCD.#$% Hello World!\n又一段文本123輛 !3.0

          其中包含了中文,英文,標點符號,亂七八糟符號及阿拉伯數字。


          結果:一塊/s 勤奮/a 地/u 漂亮/a 的/u 一/m 塊/q 錢/n ,/w //nx 打造/v 經濟/n 的/u 航空母艦/n 。/w ABCD.#$%/nx Hello/nx World/nx !/w 又/d 一/m 段/q 文本/n 123/m 輛/q


          可以發現在ABCD.#$%/nx的分詞結果有點不對,并沒有很好的把英文單詞和其他字符很好的分開.

          在此處我加入了一個驗證機制,修改過后的分詞結果為:

          一塊/s 勤奮/a 地/u 漂亮/a 的/u 一/m 塊/q 錢/n ,/w //nx 打造/v 經濟/n 的/u 航空母艦/n 。/w ABCD/nx .#$%/un Hello/nx World/nx !/w 又/d 一/m 段/q 文本/n 123/m 輛/q

          其中的/un表示未知字符的意思.


          posted on 2011-06-23 12:59 coolnothing 閱讀(265) 評論(1)  編輯  收藏

          FeedBack:
          # re: 關于中科院ICTCLAS4J的一點小改動 2011-11-10 16:55 我去~
          呵呵 你這篇文章夠逗樂的 意淫呢?  回復  更多評論
            

          只有注冊用戶登錄后才能發表評論。


          網站導航:
          博客園   IT新聞   Chat2DB   C++博客   博問  
           
          主站蜘蛛池模板: 鄂温| 宝山区| 夹江县| 巴马| 万荣县| 武胜县| 内丘县| 临朐县| 绵竹市| 晴隆县| 古蔺县| 都匀市| 盈江县| 志丹县| 乐业县| 新田县| 桦川县| 兴隆县| 泸州市| 中牟县| 满城县| 青川县| 阜宁县| 乌苏市| 久治县| 铜陵市| 天峻县| 九江市| 灵寿县| 平邑县| 阳城县| 荆州市| 丽江市| 斗六市| 铁力市| 安徽省| 那坡县| 新乡市| 余江县| 浦东新区| 台前县|