我要去桂林---田春峰的網(wǎng)志

我要去桂林

隨筆 - 10, 文章 - 0, 評論 - 2, 引用 - 0

數(shù)據(jù)加載中……

一種快速的未登陸詞識別方法(原理和實(shí)現(xiàn))

    最近網(wǎng)絡(luò)上關(guān)于分詞的算法已經(jīng)很多了,在實(shí)際應(yīng)用中每個(gè)人根據(jù)對分詞的不同理解寫了不同的中文分詞算法,可謂百花齊放.
    但現(xiàn)在似乎還沒有針對未登陸詞的識別算法,有鑒于此,我特地寫了一個(gè),拋磚引玉.

    算法的假設(shè):
    1. 未登陸詞是由單字組成的;
    2. 如果一個(gè)字同時(shí)屬于2個(gè)未登陸詞,那么只選擇第一被識別的詞;

    測試文章:
    最近電視劇大長今很火,我就選取了介紹大長今的文章,
    地址:http://www.360doc.com/showWeb/0/0/18183.aspx
    識別結(jié)果如下:
        PDH : initialize phrase dictionary
        QuerySpliter reInitialize dictionary.
        長今,職場,閔政浩,韓劇,鄭云白,連生,主簿,冷廟高香,義字,醫(yī)女,張德,剩者,濟(jì)州,選撥,文秘

    算法原理:
    首先找出已經(jīng)分詞后的單字,然后查看單字的下一個(gè)是否還是單字,如果是,判斷這種情況出現(xiàn)的次數(shù),如果超過預(yù)訂的閥值,那么就確認(rèn)這是一個(gè)新詞.
    下面是一個(gè)算法的計(jì)算過程展示:
   PDH : initialize phrase dictionary
   QuerySpliter reInitialize dictionary.
   >>>8,9;9,10
   長今
   >>>237,238;238,239
   職場
   >>>595,596;596,597;597,598
   閔政浩
   >>>189,190;190,191
   韓劇
   >>>1111,1112;1112,1113;1113,1114
   鄭云白
   >>>599,600;600,601
   連生
   >>>610,611;611,612
   主簿
   >>>975,976;976,977;977,978;978,979
   冷廟高香
   >>>1233,1234;1234,1235
   義字
   >>>559,560;560,561
   醫(yī)女
   >>>561,562;562,563
   張德
   >>>3114,3115;3115,3116
   剩者
   >>>534,535;535,536
   濟(jì)州
   >>>580,581;581,582
   選撥
   >>>2071,2072;2072,2073
   文秘
    本算法是在:小叮咚分詞的基礎(chǔ)上進(jìn)行的.
    歡迎大家一起交流,改進(jìn)這個(gè)算法.

    相關(guān)連接:
              基于最長詞匹配算法變形的分詞系統(tǒng)( 文舫工作室貢獻(xiàn) )
                       小叮咚中文分詞在處理大量數(shù)據(jù)的時(shí)候碰到了內(nèi)存泄漏的問題
                       Lucene使用者沙龍

原帖地址

posted on 2005-10-12 16:16 我要去桂林閱讀(752) 評論(0) 編輯收藏

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理

我要去桂林---田春峰的網(wǎng)志

一種快速的未登陸詞識別方法(原理和實(shí)現(xiàn))

導(dǎo)航

常用鏈接

留言簿(1)

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜