刀劍笑

          用技術(shù)改善你的生活

            BlogJava :: 首頁(yè) :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
            13 隨筆 :: 3 文章 :: 3 評(píng)論 :: 0 Trackbacks

          ===============================================================================

          如有需要可以轉(zhuǎn)載,但轉(zhuǎn)載請(qǐng)注明出處,并保留這一塊信息,謝謝合作!

          部分內(nèi)容參考互聯(lián)網(wǎng),如有異議,請(qǐng)跟我聯(lián)系!

          作者:刀劍笑(Blog:http://blog.csdn.net/jyz3051)

          Email:jyz3051 at yahoo dot com dot cn('at'請(qǐng)?zhí)鎿Q成'@','dot'請(qǐng)?zhí)鎿Q成'.' )

          ===============================================================================

           

          關(guān)鍵詞:中文分詞,中文分詞算法,基于字符串匹配的分詞,基于理解的分詞,基于統(tǒng)計(jì)的分詞

          到目前為止,中文分詞包括三種方法:1)基于字符串匹配的分詞;2)基于理解的分詞;3)基于統(tǒng)計(jì)的分詞。到目前為止,還無(wú)法證明哪一種方法更準(zhǔn)確,每種方法都有自己的利弊,有強(qiáng)項(xiàng)也有致命弱點(diǎn),簡(jiǎn)單的對(duì)比見(jiàn)下表所示:

          各種分詞方法的優(yōu)劣對(duì)比

          分詞方法

          基于字符串匹配分詞

          基于理解的分詞

          基于統(tǒng)計(jì)的分詞

          歧義識(shí)別

          強(qiáng)

          強(qiáng)

          新詞識(shí)別

          強(qiáng)

          強(qiáng)

          需要詞典

          需要

          不需要

          不需要

          需要語(yǔ)料庫(kù)

          需要規(guī)則庫(kù)

          算法復(fù)雜性

          容易

          很難

          一般

          技術(shù)成熟度

          成熟

          不成熟

          成熟

          實(shí)施難度

          容易

          很難

          一般

          分詞準(zhǔn)確性

          一般

          準(zhǔn)確

          較準(zhǔn)

          分詞速度

          一般

          (1)歧義識(shí)別

          歧義識(shí)別指一個(gè)字符串有多種分詞方法,計(jì)算機(jī)難以給出到底哪一種分詞算法才是正確的分詞系列。如"表面的"可以分為"表面/的"或"表/面的"。計(jì)算機(jī)無(wú)法判斷哪一種才是準(zhǔn)確的分詞系列。

          基于字符串的分詞算法:僅僅是跟一個(gè)電子詞典進(jìn)行比較,故不能進(jìn)行歧義識(shí)別;

          基于理解的分詞算法:指通過(guò)理解字符串的含義,故有很強(qiáng)的歧義識(shí)別能力;

          基于統(tǒng)計(jì)的分詞算法:根據(jù)字符連續(xù)出現(xiàn)次數(shù)的多少,得到分詞系列,故常常能夠給出正確的分詞系列選擇,但是也有可能判斷錯(cuò)誤的情況。

          (2)新詞識(shí)別

          新詞識(shí)別也稱作未登錄詞識(shí)別,指正確識(shí)別詞典中沒(méi)有出現(xiàn)的詞語(yǔ)。姓名、機(jī)構(gòu)名、地址、稱謂等千變?nèi)f化,詞典中常常不能完全收錄這些詞語(yǔ);另外,網(wǎng)絡(luò)中出現(xiàn)的流行用語(yǔ)也是一種未登錄詞的常見(jiàn)來(lái)源,如"打醬油"為最近出現(xiàn)在網(wǎng)絡(luò)中,并迅速流行,從而成為一個(gè)新詞。大量的研究證明新詞識(shí)別是中文分詞準(zhǔn)確性的一個(gè)重要影響因素。

          基于字符串的分詞算法:無(wú)法正確識(shí)別未登錄詞,因?yàn)檫@種算法僅僅與詞典中存在的詞語(yǔ)進(jìn)行比較;

          基于理解的分詞算法:理解字符串的含義,從而有很強(qiáng)的新詞識(shí)別能力;

          基于統(tǒng)計(jì)的分詞算法:這種算法對(duì)第二種未登錄詞有很強(qiáng)的識(shí)別能力,因?yàn)槌霈F(xiàn)次數(shù)多,才會(huì)當(dāng)作一個(gè)新詞;對(duì)于第二類未登錄詞,這類詞語(yǔ)有一定的規(guī)律,如姓名:"姓"+ 名字,如李勝利;機(jī)構(gòu):前綴+稱謂,如希望集團(tuán);故需要結(jié)合一定的規(guī)則進(jìn)行識(shí)別,僅僅統(tǒng)計(jì)方法難以正確識(shí)別。

          (3)需要詞典

          基于字符串的分詞算法:基本思路就是與電子詞典進(jìn)行比較,故電子詞典是必須的。并且詞典越大,分詞的正確率越高,因?yàn)樵~典越大,未登錄詞越少,從而可以大大減少未登錄詞識(shí)別的錯(cuò)誤;

          基于理解的分詞算法:理解字符串的含義,故不需要一個(gè)電子詞典;

          基于統(tǒng)計(jì)的分詞算法:僅僅根據(jù)統(tǒng)計(jì)得到最終的結(jié)果,故電子詞典不是必須的。

          (4)需要語(yǔ)料庫(kù)

          基于字符串的分詞算法:分詞過(guò)程僅僅與一個(gè)已經(jīng)存在的電子詞典進(jìn)行比較,故不需要語(yǔ)料庫(kù);

          基于理解的分詞算法:理解字符串的含義,故不需要電子詞典;

          基于統(tǒng)計(jì)的分詞算法:需要語(yǔ)料庫(kù)進(jìn)行統(tǒng)計(jì)訓(xùn)練,故語(yǔ)料庫(kù)是必須的;且好的語(yǔ)料庫(kù)是分詞準(zhǔn)確性的保證。

          (5)需要規(guī)則庫(kù)

          基于字符串的分詞算法:分詞過(guò)程僅僅與一個(gè)已經(jīng)存在的電子詞典進(jìn)行比較,不需要規(guī)則庫(kù)來(lái)進(jìn)行分詞;

          基于理解的分詞算法:規(guī)則是計(jì)算機(jī)進(jìn)行理解的基礎(chǔ),故準(zhǔn)確、完備的規(guī)則庫(kù)是這種分詞算法的前提;

          基于統(tǒng)計(jì)的分詞算法:根據(jù)語(yǔ)料庫(kù)統(tǒng)計(jì)訓(xùn)練,故規(guī)則庫(kù)不是必須的。

          (6)算法復(fù)雜性

          基于字符串的分詞算法:僅僅進(jìn)行字符串的比較操作,故算法簡(jiǎn)單;

          基于理解的分詞算法:需要充分處理各種規(guī)則,故算法非常復(fù)雜;事實(shí)上到目前為止,還沒(méi)有成熟的這類算法;

          基于統(tǒng)計(jì)的分詞算法:需要語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,雖然算法也比較復(fù)雜,但是已經(jīng)比較常見(jiàn),故這種分詞的復(fù)雜性比第一種大,比第二種容易。現(xiàn)在的實(shí)用分詞系統(tǒng)都采用這種算法。

          (7)技術(shù)成熟度

          基于字符串的分詞算法:是最早出現(xiàn)也是最成熟的算法;

          基于理解的分詞算法:是最不成熟的一類算法,到目前為止還沒(méi)有成熟的算法;

          基于統(tǒng)計(jì)的分詞算法:已經(jīng)有多種成熟的這類算法,基本上能夠滿足實(shí)際的應(yīng)用。

          故技術(shù)成熟度:基于匹配的分詞算法〉基于理解的分詞算法〉基于統(tǒng)計(jì)的分詞算法。

          (8)實(shí)施復(fù)雜性

          同上面的道理,實(shí)施復(fù)雜性:基于理解的分詞算法〉基于統(tǒng)計(jì)的分詞算法〉基于匹配的分詞算法。

          (9)分詞準(zhǔn)確性

          到目前為止還沒(méi)有一個(gè)準(zhǔn)確的結(jié)論,不過(guò)從理論上說(shuō),基于理解的分詞算法有最高的分詞準(zhǔn)確性,理論上有100%的準(zhǔn)確性;而基于匹配的分詞算法和基于統(tǒng)計(jì)的分詞算法是一種"淺理解"的分詞方法,不涉及真正的含義理解,故可能會(huì)出現(xiàn)錯(cuò)誤,難以達(dá)到100%的準(zhǔn)確性。

          (10)分詞速度

          基于匹配的分詞算法:算法簡(jiǎn)單,操作容易,故分詞速度快,所以這種算法常常作為另外兩種算法的預(yù)處理,進(jìn)行字符串的粗分;

          基于理解的分詞算法:這種算法常常需要操作一個(gè)巨大的規(guī)則庫(kù),故速度最慢;

          基于統(tǒng)計(jì)的分詞算法:這種分詞算法僅僅是與一個(gè)統(tǒng)計(jì)結(jié)果進(jìn)行比較,故速度一般。

          故一般的分詞速度從快到慢依次為:基于匹配的分詞算法〉基于統(tǒng)計(jì)的分詞算法〉基于理解的分詞算法。

           

          posted on 2008-11-01 20:16 刀劍笑 閱讀(8593) 評(píng)論(0)  編輯  收藏

          只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。


          網(wǎng)站導(dǎo)航:
           
          主站蜘蛛池模板: 绵阳市| 莆田市| 南开区| 永泰县| 文化| 淮北市| 崇礼县| 浙江省| 西平县| 辰溪县| 怀集县| 当阳市| 五莲县| 平舆县| 砀山县| 长汀县| 大城县| 华池县| 策勒县| 新郑市| 奉化市| 江口县| 云和县| 中西区| 三穗县| 日照市| 陇南市| 罗源县| 惠州市| 刚察县| 黄山市| 潼南县| 贵德县| 枞阳县| 高州市| 蒙山县| 德庆县| 雅安市| 张家界市| 贵州省| 隆安县|