對于一個測試語句
原字符串:一塊勤奮地漂亮的一塊錢,/打造經(jīng)濟(jì)的航空母艦。ABCD.#$% Hello World!\n又一段文本123輛 !3.0
其中包含了中文,英文,標(biāo)點(diǎn)符號,亂七八糟符號及阿拉伯?dāng)?shù)字。
結(jié)果:一塊/s 勤奮/a 地/u 漂亮/a 的/u 一/m 塊/q 錢/n ,/w //nx 打造/v 經(jīng)濟(jì)/n 的/u 航空母艦/n 。/w ABCD.#$%/nx Hello/nx World/nx !/w 又/d 一/m 段/q 文本/n 123/m 輛/q
可以發(fā)現(xiàn)在ABCD.#$%/nx的分詞結(jié)果有點(diǎn)不對,并沒有很好的把英文單詞和其他字符很好的分開.
在此處我加入了一個驗證機(jī)制,修改過后的分詞結(jié)果為:
一塊/s 勤奮/a 地/u 漂亮/a 的/u 一/m 塊/q 錢/n ,/w //nx 打造/v 經(jīng)濟(jì)/n 的/u 航空母艦/n 。/w ABCD/nx .#$%/un Hello/nx World/nx !/w 又/d 一/m 段/q 文本/n 123/m 輛/q
其中的/un表示未知字符的意思.