經(jīng)過詞頻統(tǒng)計(jì),看到復(fù)旦大學(xué)中文語料庫的總詞數(shù)為116558個(gè)(而且還是去掉了停止詞及代詞,介詞,數(shù)詞和時(shí)間短語等無關(guān)內(nèi)容之后的結(jié)果),數(shù)量十分巨大.
而各個(gè)類別的詞匯數(shù)量分別為:
類別名稱:Agriculture 總文檔數(shù):1949 總詞數(shù):29163
類別名稱:Art 總文檔數(shù):1237 總詞數(shù):40816
類別名稱:Communication 總文檔數(shù):52 總詞數(shù):2283
類別名稱:Computer 總文檔數(shù):2591 總詞數(shù):19340
類別名稱:Economy 總文檔數(shù):2912 總詞數(shù):37021
類別名稱:Education 總文檔數(shù):111 總詞數(shù):5719
類別名稱:Electronics 總文檔數(shù):51 總詞數(shù):2693
類別名稱:Energy 總文檔數(shù):63 總詞數(shù):2848
類別名稱:Environment 總文檔數(shù):2347 總詞數(shù):25155
類別名稱:History 總文檔數(shù):708 總詞數(shù):47205
類別名稱:Law 總文檔數(shù):103 總詞數(shù):3834
類別名稱:Literature 總文檔數(shù):65 總詞數(shù):5844
類別名稱:Medical 總文檔數(shù):98 總詞數(shù):3877
類別名稱:Military 總文檔數(shù):147 總詞數(shù):4615
類別名稱:Mine 總文檔數(shù):63 總詞數(shù):3708
類別名稱:Philosophy 總文檔數(shù):86 總詞數(shù):5190
類別名稱:Politics 總文檔數(shù):1920 總詞數(shù):35292
類別名稱:Space 總文檔數(shù):1226 總詞數(shù):14557
類別名稱:Sports 總文檔數(shù):2344 總詞數(shù):42665
類別名稱:Transport 總文檔數(shù):112 總詞數(shù):4644
很容易看出詞匯的數(shù)量基本與類別包含的文檔數(shù)成正比,但也有一些極其特殊的類別,比如藝術(shù)(Art)和歷史(History),其文檔數(shù)量僅有計(jì)算機(jī)文章數(shù)量的一半,但包含的詞匯量卻是計(jì)算機(jī)類別的兩倍以上(分別是40816:19340和47205:19340,尤以歷史類文章為甚,其文檔數(shù)量僅有計(jì)算機(jī)類的三分之一還不到)。直觀上的想法是,歷史和藝術(shù)類文章包含了大量的人名,地名或者事件名等專有名詞,因而詞匯數(shù)量上表現(xiàn)得很巨大。計(jì)算機(jī)類文章包含詞匯較少,一是因?yàn)槠錇樾屡d學(xué)科,包含的內(nèi)容本就較少,另一個(gè)更重要的原因則在于前期對(duì)文章的處理忽略了所有的英文單詞及縮寫,而這些內(nèi)容在計(jì)算機(jī)相關(guān)的文章中所占比重很大。
如果我們看整個(gè)語料庫出現(xiàn)次數(shù)最多的十個(gè)詞,會(huì)發(fā)現(xiàn)他們大致也是我們的國計(jì)民生所關(guān)注的幾個(gè)方面(巧合?未必?。┧鼈兪牵?br />
詞內(nèi)容:經(jīng)濟(jì) 詞性:名詞 詞頻:233906 文檔頻率:8975
詞內(nèi)容:發(fā)展 詞性:動(dòng)詞 詞頻:189181 文檔頻率:11847
詞內(nèi)容:農(nóng)業(yè) 詞性:名詞 詞頻:126603 文檔頻率:4105
詞內(nèi)容:社會(huì) 詞性:名詞 詞頻:108988 文檔頻率:8686
詞內(nèi)容:政治 詞性:名詞 詞頻:106847 文檔頻率:4971
詞內(nèi)容:大 詞性:形容詞 詞頻:106111 文檔頻率:14729
詞內(nèi)容:中國 詞性:名詞 詞頻:105269 文檔頻率:10885
詞內(nèi)容:人 詞性:名詞 詞頻:98034 文檔頻率:11037
詞內(nèi)容:問題 詞性:名詞 詞頻:94458 文檔頻率:12538
詞內(nèi)容:個(gè) 詞性:量詞 詞頻:91717 文檔頻率:14428
通過與某些類別中排名前十位的詞對(duì)比,我們可以看出很多問題,例如計(jì)算機(jī)類別:
詞內(nèi)容:系統(tǒng) 詞性:形容詞 詞頻:45496 文檔頻率:2244
詞內(nèi)容:控制 詞性:動(dòng)詞 詞頻:21937 文檔頻率:1734
詞內(nèi)容:圖 詞性:名詞 詞頻:20396 文檔頻率:1914
詞內(nèi)容:方法 詞性:名詞 詞頻:20073 文檔頻率:2141
詞內(nèi)容:個(gè) 詞性:量詞 詞頻:19661 文檔頻率:2207
詞內(nèi)容:算法 詞性:名詞 詞頻:18879 文檔頻率:1336
詞內(nèi)容:數(shù)據(jù) 詞性:名詞 詞頻:17691 文檔頻率:1357
詞內(nèi)容:模型 詞性:名詞 詞頻:17182 文檔頻率:1423
詞內(nèi)容:網(wǎng)絡(luò) 詞性:名詞 詞頻:16980 文檔頻率:1159
詞內(nèi)容:進(jìn)行 詞性:動(dòng)詞 詞頻:16406 文檔頻率:2094
詞內(nèi)容:問題 詞性:名詞 詞頻:14617 文檔頻率:1965
再比如交通類別:
詞內(nèi)容:鐵路 詞性:名詞 詞頻:280 文檔頻率:51
詞內(nèi)容:運(yùn)輸 詞性:動(dòng)詞 詞頻:205 文檔頻率:74
詞內(nèi)容:交通 詞性:名詞 詞頻:158 文檔頻率:54
詞內(nèi)容:大 詞性:形容詞 詞頻:147 文檔頻率:59
詞內(nèi)容:工程 詞性:名詞 詞頻:136 文檔頻率:31
詞內(nèi)容:個(gè) 詞性:量詞 詞頻:117 文檔頻率:51
詞內(nèi)容:年 詞性:量詞 詞頻:114 文檔頻率:52
詞內(nèi)容:建設(shè) 詞性:動(dòng)詞 詞頻:108 文檔頻率:40
詞內(nèi)容:公路 詞性:名詞 詞頻:106 文檔頻率:34
詞內(nèi)容:條 詞性:量詞 詞頻:105 文檔頻率:38
我們會(huì)發(fā)現(xiàn),
第一:整個(gè)語料庫出現(xiàn)最多的詞未必在各個(gè)類別中也最多,實(shí)際上通過計(jì)算機(jī)和交通類別可以看出,幾乎完全不同!這意味著在進(jìn)行文本分類的訓(xùn)練階段,針對(duì)各個(gè)類取不同的特征集合(即所謂local的特征選擇)很有必要,如果所有的類別都使用相同的特征集合(而且毫無懸念的,這個(gè)特征集合就是語料庫的特征集合),那么分類效果會(huì)因?yàn)闆]有為各個(gè)類找到最佳的特征而大打折扣;
第二,注意到“個(gè)”這個(gè)詞出現(xiàn)在所有類別排名靠前的詞匯中間,但直覺告訴我們,這個(gè)詞很難對(duì)分類產(chǎn)生什么貢獻(xiàn)(行話叫區(qū)分度很差)。此結(jié)論與信息論中所說的“一個(gè)詞分布越廣越均勻,則區(qū)分度越差”是一個(gè)意思。當(dāng)然,在這里“個(gè)”會(huì)如明星般的出現(xiàn)在所有類別靠前的位置上,完全是因?yàn)槲覀兊呐琶歉鶕?jù)詞頻來統(tǒng)計(jì)的(根據(jù)文檔頻率排序也會(huì)產(chǎn)生相似的結(jié)果),而使用像開方檢驗(yàn),信息增益這樣的特征選擇算法,就是為了避免這種區(qū)分度差的詞出現(xiàn)在最終的特征集合中,從而影響分類效果。
在后續(xù)的文章里,我還會(huì)給出使用了開方檢驗(yàn)計(jì)算特征得分以后的排名情況,“個(gè)”這個(gè)詞會(huì)不會(huì)從前十名中消失呢?又有哪些詞會(huì)沖上頭排呢?我們拭目以待。(音樂響,幕布緩慢拉上,燈光漸暗)
而各個(gè)類別的詞匯數(shù)量分別為:
類別名稱:Agriculture 總文檔數(shù):1949 總詞數(shù):29163
類別名稱:Art 總文檔數(shù):1237 總詞數(shù):40816
類別名稱:Communication 總文檔數(shù):52 總詞數(shù):2283
類別名稱:Computer 總文檔數(shù):2591 總詞數(shù):19340
類別名稱:Economy 總文檔數(shù):2912 總詞數(shù):37021
類別名稱:Education 總文檔數(shù):111 總詞數(shù):5719
類別名稱:Electronics 總文檔數(shù):51 總詞數(shù):2693
類別名稱:Energy 總文檔數(shù):63 總詞數(shù):2848
類別名稱:Environment 總文檔數(shù):2347 總詞數(shù):25155
類別名稱:History 總文檔數(shù):708 總詞數(shù):47205
類別名稱:Law 總文檔數(shù):103 總詞數(shù):3834
類別名稱:Literature 總文檔數(shù):65 總詞數(shù):5844
類別名稱:Medical 總文檔數(shù):98 總詞數(shù):3877
類別名稱:Military 總文檔數(shù):147 總詞數(shù):4615
類別名稱:Mine 總文檔數(shù):63 總詞數(shù):3708
類別名稱:Philosophy 總文檔數(shù):86 總詞數(shù):5190
類別名稱:Politics 總文檔數(shù):1920 總詞數(shù):35292
類別名稱:Space 總文檔數(shù):1226 總詞數(shù):14557
類別名稱:Sports 總文檔數(shù):2344 總詞數(shù):42665
類別名稱:Transport 總文檔數(shù):112 總詞數(shù):4644
很容易看出詞匯的數(shù)量基本與類別包含的文檔數(shù)成正比,但也有一些極其特殊的類別,比如藝術(shù)(Art)和歷史(History),其文檔數(shù)量僅有計(jì)算機(jī)文章數(shù)量的一半,但包含的詞匯量卻是計(jì)算機(jī)類別的兩倍以上(分別是40816:19340和47205:19340,尤以歷史類文章為甚,其文檔數(shù)量僅有計(jì)算機(jī)類的三分之一還不到)。直觀上的想法是,歷史和藝術(shù)類文章包含了大量的人名,地名或者事件名等專有名詞,因而詞匯數(shù)量上表現(xiàn)得很巨大。計(jì)算機(jī)類文章包含詞匯較少,一是因?yàn)槠錇樾屡d學(xué)科,包含的內(nèi)容本就較少,另一個(gè)更重要的原因則在于前期對(duì)文章的處理忽略了所有的英文單詞及縮寫,而這些內(nèi)容在計(jì)算機(jī)相關(guān)的文章中所占比重很大。
如果我們看整個(gè)語料庫出現(xiàn)次數(shù)最多的十個(gè)詞,會(huì)發(fā)現(xiàn)他們大致也是我們的國計(jì)民生所關(guān)注的幾個(gè)方面(巧合?未必?。┧鼈兪牵?br />
詞內(nèi)容:經(jīng)濟(jì) 詞性:名詞 詞頻:233906 文檔頻率:8975
詞內(nèi)容:發(fā)展 詞性:動(dòng)詞 詞頻:189181 文檔頻率:11847
詞內(nèi)容:農(nóng)業(yè) 詞性:名詞 詞頻:126603 文檔頻率:4105
詞內(nèi)容:社會(huì) 詞性:名詞 詞頻:108988 文檔頻率:8686
詞內(nèi)容:政治 詞性:名詞 詞頻:106847 文檔頻率:4971
詞內(nèi)容:大 詞性:形容詞 詞頻:106111 文檔頻率:14729
詞內(nèi)容:中國 詞性:名詞 詞頻:105269 文檔頻率:10885
詞內(nèi)容:人 詞性:名詞 詞頻:98034 文檔頻率:11037
詞內(nèi)容:問題 詞性:名詞 詞頻:94458 文檔頻率:12538
詞內(nèi)容:個(gè) 詞性:量詞 詞頻:91717 文檔頻率:14428
通過與某些類別中排名前十位的詞對(duì)比,我們可以看出很多問題,例如計(jì)算機(jī)類別:
詞內(nèi)容:系統(tǒng) 詞性:形容詞 詞頻:45496 文檔頻率:2244
詞內(nèi)容:控制 詞性:動(dòng)詞 詞頻:21937 文檔頻率:1734
詞內(nèi)容:圖 詞性:名詞 詞頻:20396 文檔頻率:1914
詞內(nèi)容:方法 詞性:名詞 詞頻:20073 文檔頻率:2141
詞內(nèi)容:個(gè) 詞性:量詞 詞頻:19661 文檔頻率:2207
詞內(nèi)容:算法 詞性:名詞 詞頻:18879 文檔頻率:1336
詞內(nèi)容:數(shù)據(jù) 詞性:名詞 詞頻:17691 文檔頻率:1357
詞內(nèi)容:模型 詞性:名詞 詞頻:17182 文檔頻率:1423
詞內(nèi)容:網(wǎng)絡(luò) 詞性:名詞 詞頻:16980 文檔頻率:1159
詞內(nèi)容:進(jìn)行 詞性:動(dòng)詞 詞頻:16406 文檔頻率:2094
詞內(nèi)容:問題 詞性:名詞 詞頻:14617 文檔頻率:1965
再比如交通類別:
詞內(nèi)容:鐵路 詞性:名詞 詞頻:280 文檔頻率:51
詞內(nèi)容:運(yùn)輸 詞性:動(dòng)詞 詞頻:205 文檔頻率:74
詞內(nèi)容:交通 詞性:名詞 詞頻:158 文檔頻率:54
詞內(nèi)容:大 詞性:形容詞 詞頻:147 文檔頻率:59
詞內(nèi)容:工程 詞性:名詞 詞頻:136 文檔頻率:31
詞內(nèi)容:個(gè) 詞性:量詞 詞頻:117 文檔頻率:51
詞內(nèi)容:年 詞性:量詞 詞頻:114 文檔頻率:52
詞內(nèi)容:建設(shè) 詞性:動(dòng)詞 詞頻:108 文檔頻率:40
詞內(nèi)容:公路 詞性:名詞 詞頻:106 文檔頻率:34
詞內(nèi)容:條 詞性:量詞 詞頻:105 文檔頻率:38
我們會(huì)發(fā)現(xiàn),
第一:整個(gè)語料庫出現(xiàn)最多的詞未必在各個(gè)類別中也最多,實(shí)際上通過計(jì)算機(jī)和交通類別可以看出,幾乎完全不同!這意味著在進(jìn)行文本分類的訓(xùn)練階段,針對(duì)各個(gè)類取不同的特征集合(即所謂local的特征選擇)很有必要,如果所有的類別都使用相同的特征集合(而且毫無懸念的,這個(gè)特征集合就是語料庫的特征集合),那么分類效果會(huì)因?yàn)闆]有為各個(gè)類找到最佳的特征而大打折扣;
第二,注意到“個(gè)”這個(gè)詞出現(xiàn)在所有類別排名靠前的詞匯中間,但直覺告訴我們,這個(gè)詞很難對(duì)分類產(chǎn)生什么貢獻(xiàn)(行話叫區(qū)分度很差)。此結(jié)論與信息論中所說的“一個(gè)詞分布越廣越均勻,則區(qū)分度越差”是一個(gè)意思。當(dāng)然,在這里“個(gè)”會(huì)如明星般的出現(xiàn)在所有類別靠前的位置上,完全是因?yàn)槲覀兊呐琶歉鶕?jù)詞頻來統(tǒng)計(jì)的(根據(jù)文檔頻率排序也會(huì)產(chǎn)生相似的結(jié)果),而使用像開方檢驗(yàn),信息增益這樣的特征選擇算法,就是為了避免這種區(qū)分度差的詞出現(xiàn)在最終的特征集合中,從而影響分類效果。
在后續(xù)的文章里,我還會(huì)給出使用了開方檢驗(yàn)計(jì)算特征得分以后的排名情況,“個(gè)”這個(gè)詞會(huì)不會(huì)從前十名中消失呢?又有哪些詞會(huì)沖上頭排呢?我們拭目以待。(音樂響,幕布緩慢拉上,燈光漸暗)