復(fù)旦大學(xué)的中文語(yǔ)料庫(kù)分為訓(xùn)練集和驗(yàn)證集兩部分,兩部分的文檔數(shù)量基本相等,但現(xiàn)在做測(cè)評(píng)一般都不采用這種預(yù)先劃分的方法,而多用交叉驗(yàn)證,因此在將訓(xùn)練集與驗(yàn)證集合并之后,得到該語(yǔ)料庫(kù)的一些基本信息如下:
類(lèi)別總數(shù)量:20
文檔總數(shù)量:19637
類(lèi)別名稱(chēng)(類(lèi)別代碼):文檔數(shù)量
Agriculture(C32):2043篇
Art(C3):1482篇
Communication(C17):52篇
Computer(C19):2715篇
Economy(C34):3201篇
Education(C5):120篇
Electronics(C16):55篇
Energy(C15):65篇
Enviornment(C31):2435篇
History(C7):934篇
Law(C35):103篇
Literature(C4):67篇
Medical(C36):104篇
Military(C37):150篇
Mine(C23):67篇
Philosophy(C6):89篇
Politics(C38):2050篇
Space(C11):1282篇
Sports(C39):2507篇
Transport(C29):116篇
同時(shí),在使用ictclas4j分詞包對(duì)其進(jìn)行分詞的過(guò)程中,發(fā)現(xiàn)復(fù)旦語(yǔ)料庫(kù)中存在一些文章會(huì)使得ictclas4j報(bào)錯(cuò),其中因?yàn)榉衷~包本身字庫(kù)缺少某些文字,以及一些神秘的字符組合(確實(shí)很神秘)會(huì)導(dǎo)致分詞過(guò)程出錯(cuò),因此能夠被成功分詞而供后續(xù)使用的文檔數(shù)并不如上面所列這么多,在分詞之后,情況如下:
類(lèi)別總數(shù)量:20
文檔總數(shù)量:18185
類(lèi)別名稱(chēng)(類(lèi)別代碼):文檔數(shù)量
Agriculture(C32):1949篇
Art(C3):1237篇
Communication(C17):52篇
Computer(C19):2591篇
Economy(C34):2912篇
Education(C5):111篇
Electronics(C16):51篇
Energy(C15):63篇
Environment(C31):2347篇
History(C7):708篇
Law(C35):103篇
Literature(C4):65篇
Medical(C36):98篇
Military(C37):147篇
Mine(C23):63篇
Philosophy(C6):86篇
Politics(C38):1920篇
Space(C11):1226篇
Sports(C39):2344篇
Transport(C29):112篇
在已分詞后的語(yǔ)料庫(kù)里,可以看出這樣幾個(gè)特點(diǎn),一,文檔總數(shù)比未分詞的版本少了1448篇(可見(jiàn)ictclas4j的錯(cuò)誤還是滿普遍的);第二,文檔數(shù)量分布仍不均衡,最多的經(jīng)濟(jì)類(lèi)文章有2912篇,而最少的電子類(lèi)與通信類(lèi)文章僅有51篇與52篇,往好的方向說(shuō)可以考察你所開(kāi)發(fā)的系統(tǒng)如何應(yīng)對(duì)數(shù)據(jù)集偏斜的問(wèn)題,往壞的方向說(shuō)給要上線的系統(tǒng)作訓(xùn)練集恐怕不太合適。
在下一篇文章中,我將進(jìn)一步總結(jié)詞頻統(tǒng)計(jì)的結(jié)果.