對于一個測試語句
原字符串:一塊勤奮地漂亮的一塊錢,/打造經濟的航空母艦。ABCD.#$% Hello World!\n又一段文本123輛 !3.0
其中包含了中文,英文,標點符號,亂七八糟符號及阿拉伯數字。
結果:一塊/s 勤奮/a 地/u 漂亮/a 的/u 一/m 塊/q 錢/n ,/w //nx 打造/v 經濟/n 的/u 航空母艦/n 。/w ABCD.#$%/nx Hello/nx World/nx !/w 又/d 一/m 段/q 文本/n 123/m 輛/q
可以發現在ABCD.#$%/nx的分詞結果有點不對,并沒有很好的把英文單詞和其他字符很好的分開.
在此處我加入了一個驗證機制,修改過后的分詞結果為:
一塊/s 勤奮/a 地/u 漂亮/a 的/u 一/m 塊/q 錢/n ,/w //nx 打造/v 經濟/n 的/u 航空母艦/n 。/w ABCD/nx .#$%/un Hello/nx World/nx !/w 又/d 一/m 段/q 文本/n 123/m 輛/q
其中的/un表示未知字符的意思.