一種快速的未登陸詞識別方法(原理和實現)
一種快速的未登陸詞識別方法(原理和實現)
最近網絡上關于分詞的算法已經很多了,在實際應用中每個人根據對分詞的不同理解寫了不同的中文分詞算法,可謂百花齊放.
但現在似乎還沒有針對未登陸詞的識別算法,有鑒于此,我特地寫了一個,拋磚引玉.
算法的假設:
1. 未登陸詞是由單字組成的;
2. 如果一個字同時屬于2個未登陸詞,那么只選擇第一被識別的詞;
測試文章:
最近電視劇大長今很火,我就選取了介紹大長今的文章,
地址:http://www.360doc.com/showWeb/0/0/18183.aspx
識別結果如下:
PDH : initialize phrase dictionary
QuerySpliter reInitialize dictionary.
長今,職場,閔政浩,韓劇,鄭云白,連生,主簿,冷廟高香,義字,醫女,張德,剩者,濟州,選撥,文秘
算法原理:
首先找出已經分詞后的單字,然后查看單字的下一個是否還是單字,如果是,判斷這種情況出現的次數,如果超過預訂的閥值,那么就確認這是一個新詞.
下面是一個算法的計算過程展示:
PDH : initialize phrase dictionary
QuerySpliter reInitialize dictionary.
>>>8,9;9,10
長今
>>>237,238;238,239
職場
>>>595,596;596,597;597,598
閔政浩
>>>189,190;190,191
韓劇
>>>1111,1112;1112,1113;1113,1114
鄭云白
>>>599,600;600,601
連生
>>>610,611;611,612
主簿
>>>975,976;976,977;977,978;978,979
冷廟高香
>>>1233,1234;1234,1235
義字
>>>559,560;560,561
醫女
>>>561,562;562,563
張德
>>>3114,3115;3115,3116
剩者
>>>534,535;535,536
濟州
>>>580,581;581,582
選撥
>>>2071,2072;2072,2073
文秘
本算法是在:小叮咚分詞的基礎上進行的.
歡迎大家一起交流,改進這個算法.

相關連接:
基于最長詞匹配算法變形的分詞系統( 文舫工作室貢獻 )
小叮咚中文分詞在處理大量數據的時候碰到了內存泄漏的問題
Lucene使用者沙龍