文檔頻率篩選前 |
文檔頻率篩選后 |
總詞數(shù)116558
類別名稱:Agriculture 總詞數(shù):29163
類別名稱:Art 總詞數(shù):40816
類別名稱:Communication 總詞數(shù):2283
類別名稱:Computer 總詞數(shù):19340
類別名稱:Economy 總詞數(shù):37021
類別名稱:Education 總詞數(shù):5719
類別名稱:Electronics 總詞數(shù):2693
類別名稱:Energy 總詞數(shù):2848
類別名稱:Environment 總詞數(shù):25155
類別名稱:History 總詞數(shù):47205
類別名稱:Law 總詞數(shù):3834
類別名稱:Literature 總詞數(shù):5844
類別名稱:Medical 總詞數(shù):3877
類別名稱:Military 總詞數(shù):4615
類別名稱:Mine 總詞數(shù):3708
類別名稱:Philosophy 總詞數(shù):5190
類別名稱:Politics 總詞數(shù):35292
類別名稱:Space 總詞數(shù):14557
類別名稱:Sports 總詞數(shù):42665
類別名稱:Transport 總詞數(shù):4644 |
總詞數(shù)50283
類別名稱:Agriculture 總詞數(shù):23258
類別名稱:Art 總詞數(shù):30899
類別名稱:Communication 總詞數(shù):2207
類別名稱:Computer 總詞數(shù):15545
類別名稱:Economy 總詞數(shù):28363
類別名稱:Education 總詞數(shù):5437
類別名稱:Electronics 總詞數(shù):2604
類別名稱:Energy 總詞數(shù):2702
類別名稱:Environment 總詞數(shù):19781
類別名稱:History 總詞數(shù):31436
類別名稱:Law 總詞數(shù):3656
類別名稱:Literature 總詞數(shù):5500
類別名稱:Medical 總詞數(shù):3566
類別名稱:Military 總詞數(shù):4256
類別名稱:Mine 總詞數(shù):3507
類別名稱:Philosophy 總詞數(shù):4968
類別名稱:Politics 總詞數(shù):26046
類別名稱:Space 總詞數(shù):12136
類別名稱:Sports 總詞數(shù):30803
類別名稱:Transport 總詞數(shù):4276 |
怎么樣?總詞數(shù)從116558下降到50283,減少了一多半.可見生僻詞還是廣泛存在的.而具體到各個(gè)類別上也各不相同.減少的比較少的典型類別例如法律類,僅僅消減掉了4.6%的詞匯,而歷史類整整去除了33.4%!這倒也不難想象,因?yàn)榉筛拍钜话阌袠?biāo)準(zhǔn)的名稱和說法,文章也都有通用的格式或成文的套路遵循,作者本身發(fā)揮的余地不大.而歷史類文章包含大量的人名地名和事件名稱,這些名稱出現(xiàn)數(shù)量多但每一個(gè)出現(xiàn)的次數(shù)相對較少,而同時(shí)人名地名也很難作為區(qū)分文章主題的依據(jù)(出現(xiàn)”諸葛”就一定是說三國時(shí)期的事情么?我們計(jì)算所有位老師就姓諸葛,還恰好是搞自然語言處理方面的,呵呵),篩掉它們我們也不心疼.
有了這一步處理,又可以為開方檢驗(yàn)的計(jì)算增添不少方便.
(音樂再次響起,幕布再次緩慢拉上,燈光漸暗)