復(fù)旦大學(xué)的中文語(yǔ)料庫(kù)分為訓(xùn)練集和驗(yàn)證集兩部分,兩部分的文檔數(shù)量基本相等,但現(xiàn)在做測(cè)評(píng)一般都不采用這種預(yù)先劃分的方法,而多用交叉驗(yàn)證,因此在將訓(xùn)練集與驗(yàn)證集合并之后,得到該語(yǔ)料庫(kù)的一些基本信息如下:

類(lèi)別總數(shù)量:20

文檔總數(shù)量:19637

       類(lèi)別名稱(chēng)(類(lèi)別代碼):文檔數(shù)量

       Agriculture(C32):2043

       Art(C3):1482

       Communication(C17):52

       Computer(C19):2715

       Economy(C34):3201

       Education(C5):120

       Electronics(C16):55

       Energy(C15):65

       Enviornment(C31):2435

       History(C7):934

       Law(C35):103

       Literature(C4):67

       Medical(C36):104

       Military(C37):150

       Mine(C23):67

       Philosophy(C6):89

       Politics(C38):2050

       Space(C11):1282

       Sports(C39):2507

Transport(C29):116

同時(shí),在使用ictclas4j分詞包對(duì)其進(jìn)行分詞的過(guò)程中,發(fā)現(xiàn)復(fù)旦語(yǔ)料庫(kù)中存在一些文章會(huì)使得ictclas4j報(bào)錯(cuò),其中因?yàn)榉衷~包本身字庫(kù)缺少某些文字,以及一些神秘的字符組合(確實(shí)很神秘)會(huì)導(dǎo)致分詞過(guò)程出錯(cuò),因此能夠被成功分詞而供后續(xù)使用的文檔數(shù)并不如上面所列這么多,在分詞之后,情況如下:

類(lèi)別總數(shù)量:20

文檔總數(shù)量:18185

    類(lèi)別名稱(chēng)(類(lèi)別代碼):文檔數(shù)量

    Agriculture(C32):1949

    Art(C3):1237

    Communication(C17):52

    Computer(C19):2591

    Economy(C34):2912

    Education(C5):111

    Electronics(C16):51

    Energy(C15):63

    Environment(C31):2347

    History(C7):708

    Law(C35):103

    Literature(C4):65

    Medical(C36):98

    Military(C37):147

    Mine(C23):63

    Philosophy(C6):86

    Politics(C38):1920

    Space(C11):1226

Sports(C39):2344

Transport(C29):112

在已分詞后的語(yǔ)料庫(kù)里,可以看出這樣幾個(gè)特點(diǎn),,文檔總數(shù)比未分詞的版本少了1448(可見(jiàn)ictclas4j的錯(cuò)誤還是滿普遍的);第二,文檔數(shù)量分布仍不均衡,最多的經(jīng)濟(jì)類(lèi)文章有2912篇,而最少的電子類(lèi)與通信類(lèi)文章僅有51篇與52篇,往好的方向說(shuō)可以考察你所開(kāi)發(fā)的系統(tǒng)如何應(yīng)對(duì)數(shù)據(jù)集偏斜的問(wèn)題,往壞的方向說(shuō)給要上線的系統(tǒng)作訓(xùn)練集恐怕不太合適。

在下一篇文章中,我將進(jìn)一步總結(jié)詞頻統(tǒng)計(jì)的結(jié)果.