| |||||||||
日 | 一 | 二 | 三 | 四 | 五 | 六 | |||
---|---|---|---|---|---|---|---|---|---|
29 | 30 | 31 | 1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 | |||
12 | 13 | 14 | 15 | 16 | 17 | 18 | |||
19 | 20 | 21 | 22 | 23 | 24 | 25 | |||
26 | 27 | 28 | 29 | 30 | 1 | 2 | |||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
原字符串:一塊勤奮地漂亮的一塊錢,/打造經濟的航空母艦。ABCD.#$% Hello World!\n又一段文本123輛 !3.0
其中包含了中文,英文,標點符號,亂七八糟符號及阿拉伯數字。
結果:一塊/s 勤奮/a 地/u 漂亮/a 的/u 一/m 塊/q 錢/n ,/w //nx 打造/v 經濟/n 的/u 航空母艦/n 。/w ABCD.#$%/nx Hello/nx World/nx !/w 又/d 一/m 段/q 文本/n 123/m 輛/q
可以發現在ABCD.#$%/nx的分詞結果有點不對,并沒有很好的把英文單詞和其他字符很好的分開.
在此處我加入了一個驗證機制,修改過后的分詞結果為:
一塊/s 勤奮/a 地/u 漂亮/a 的/u 一/m 塊/q 錢/n ,/w //nx 打造/v 經濟/n 的/u 航空母艦/n 。/w ABCD/nx .#$%/un Hello/nx World/nx !/w 又/d 一/m 段/q 文本/n 123/m 輛/q
其中的/un表示未知字符的意思.