而各個類別的詞匯數(shù)量分別為:
類別名稱:Agriculture 總文檔數(shù):1949 總詞數(shù):29163
類別名稱:Art 總文檔數(shù):1237 總詞數(shù):40816
類別名稱:Communication 總文檔數(shù):52 總詞數(shù):2283
類別名稱:Computer 總文檔數(shù):2591 總詞數(shù):19340
類別名稱:Economy 總文檔數(shù):2912 總詞數(shù):37021
類別名稱:Education 總文檔數(shù):111 總詞數(shù):5719
類別名稱:Electronics 總文檔數(shù):51 總詞數(shù):2693
類別名稱:Energy 總文檔數(shù):63 總詞數(shù):2848
類別名稱:Environment 總文檔數(shù):2347 總詞數(shù):25155
類別名稱:History 總文檔數(shù):708 總詞數(shù):47205
類別名稱:Law 總文檔數(shù):103 總詞數(shù):3834
類別名稱:Literature 總文檔數(shù):65 總詞數(shù):5844
類別名稱:Medical 總文檔數(shù):98 總詞數(shù):3877
類別名稱:Military 總文檔數(shù):147 總詞數(shù):4615
類別名稱:Mine 總文檔數(shù):63 總詞數(shù):3708
類別名稱:Philosophy 總文檔數(shù):86 總詞數(shù):5190
類別名稱:Politics 總文檔數(shù):1920 總詞數(shù):35292
類別名稱:Space 總文檔數(shù):1226 總詞數(shù):14557
類別名稱:Sports 總文檔數(shù):2344 總詞數(shù):42665
類別名稱:Transport 總文檔數(shù):112 總詞數(shù):4644
很容易看出詞匯的數(shù)量基本與類別包含的文檔數(shù)成正比,但也有一些極其特殊的類別,比如藝術(shù)(Art)和歷史(History),其文檔數(shù)量僅有計算機文章數(shù)量的一半,但包含的詞匯量卻是計算機類別的兩倍以上(分別是40816:19340和47205:19340,尤以歷史類文章為甚,其文檔數(shù)量僅有計算機類的三分之一還不到)。直觀上的想法是,歷史和藝術(shù)類文章包含了大量的人名,地名或者事件名等專有名詞,因而詞匯數(shù)量上表現(xiàn)得很巨大。計算機類文章包含詞匯較少,一是因為其為新興學科,包含的內(nèi)容本就較少,另一個更重要的原因則在于前期對文章的處理忽略了所有的英文單詞及縮寫,而這些內(nèi)容在計算機相關(guān)的文章中所占比重很大。
如果我們看整個語料庫出現(xiàn)次數(shù)最多的十個詞,會發(fā)現(xiàn)他們大致也是我們的國計民生所關(guān)注的幾個方面(巧合?未必?。┧鼈兪牵?br />
詞內(nèi)容:經(jīng)濟 詞性:名詞 詞頻:233906 文檔頻率:8975
詞內(nèi)容:發(fā)展 詞性:動詞 詞頻:189181 文檔頻率:11847
詞內(nèi)容:農(nóng)業(yè) 詞性:名詞 詞頻:126603 文檔頻率:4105
詞內(nèi)容:社會 詞性:名詞 詞頻:108988 文檔頻率:8686
詞內(nèi)容:政治 詞性:名詞 詞頻:106847 文檔頻率:4971
詞內(nèi)容:大 詞性:形容詞 詞頻:106111 文檔頻率:14729
詞內(nèi)容:中國 詞性:名詞 詞頻:105269 文檔頻率:10885
詞內(nèi)容:人 詞性:名詞 詞頻:98034 文檔頻率:11037
詞內(nèi)容:問題 詞性:名詞 詞頻:94458 文檔頻率:12538
詞內(nèi)容:個 詞性:量詞 詞頻:91717 文檔頻率:14428
通過與某些類別中排名前十位的詞對比,我們可以看出很多問題,例如計算機類別:
詞內(nèi)容:系統(tǒng) 詞性:形容詞 詞頻:45496 文檔頻率:2244
詞內(nèi)容:控制 詞性:動詞 詞頻:21937 文檔頻率:1734
詞內(nèi)容:圖 詞性:名詞 詞頻:20396 文檔頻率:1914
詞內(nèi)容:方法 詞性:名詞 詞頻:20073 文檔頻率:2141
詞內(nèi)容:個 詞性:量詞 詞頻:19661 文檔頻率:2207
詞內(nèi)容:算法 詞性:名詞 詞頻:18879 文檔頻率:1336
詞內(nèi)容:數(shù)據(jù) 詞性:名詞 詞頻:17691 文檔頻率:1357
詞內(nèi)容:模型 詞性:名詞 詞頻:17182 文檔頻率:1423
詞內(nèi)容:網(wǎng)絡(luò) 詞性:名詞 詞頻:16980 文檔頻率:1159
詞內(nèi)容:進行 詞性:動詞 詞頻:16406 文檔頻率:2094
詞內(nèi)容:問題 詞性:名詞 詞頻:14617 文檔頻率:1965
再比如交通類別:
詞內(nèi)容:鐵路 詞性:名詞 詞頻:280 文檔頻率:51
詞內(nèi)容:運輸 詞性:動詞 詞頻:205 文檔頻率:74
詞內(nèi)容:交通 詞性:名詞 詞頻:158 文檔頻率:54
詞內(nèi)容:大 詞性:形容詞 詞頻:147 文檔頻率:59
詞內(nèi)容:工程 詞性:名詞 詞頻:136 文檔頻率:31
詞內(nèi)容:個 詞性:量詞 詞頻:117 文檔頻率:51
詞內(nèi)容:年 詞性:量詞 詞頻:114 文檔頻率:52
詞內(nèi)容:建設(shè) 詞性:動詞 詞頻:108 文檔頻率:40
詞內(nèi)容:公路 詞性:名詞 詞頻:106 文檔頻率:34
詞內(nèi)容:條 詞性:量詞 詞頻:105 文檔頻率:38
我們會發(fā)現(xiàn),
第一:整個語料庫出現(xiàn)最多的詞未必在各個類別中也最多,實際上通過計算機和交通類別可以看出,幾乎完全不同!這意味著在進行文本分類的訓練階段,針對各個類取不同的特征集合(即所謂local的特征選擇)很有必要,如果所有的類別都使用相同的特征集合(而且毫無懸念的,這個特征集合就是語料庫的特征集合),那么分類效果會因為沒有為各個類找到最佳的特征而大打折扣;
第二,注意到“個”這個詞出現(xiàn)在所有類別排名靠前的詞匯中間,但直覺告訴我們,這個詞很難對分類產(chǎn)生什么貢獻(行話叫區(qū)分度很差)。此結(jié)論與信息論中所說的“一個詞分布越廣越均勻,則區(qū)分度越差”是一個意思。當然,在這里“個”會如明星般的出現(xiàn)在所有類別靠前的位置上,完全是因為我們的排名是根據(jù)詞頻來統(tǒng)計的(根據(jù)文檔頻率排序也會產(chǎn)生相似的結(jié)果),而使用像開方檢驗,信息增益這樣的特征選擇算法,就是為了避免這種區(qū)分度差的詞出現(xiàn)在最終的特征集合中,從而影響分類效果。
在后續(xù)的文章里,我還會給出使用了開方檢驗計算特征得分以后的排名情況,“個”這個詞會不會從前十名中消失呢?又有哪些詞會沖上頭排呢?我們拭目以待。(音樂響,幕布緩慢拉上,燈光漸暗)