詞的文檔頻率(DF,即一個(gè)詞在多少篇文檔中出現(xiàn))雖然并不用于真正的特征選擇,但是作為特征選擇前的預(yù)處理手段還是經(jīng)常被使用,因?yàn)槌霈F(xiàn)次數(shù)太少的詞(低頻詞,或者叫生僻詞)往往是表意能力很差的詞,更極端的情況下,那種在幾萬(wàn)篇文檔中卻只出現(xiàn)幾次的詞更有可能是作者的筆誤(即創(chuàng)造了一個(gè)不存在的詞),使用它的更大好處還在于可以大大消減文檔集中需要處理的詞匯數(shù)量.請(qǐng)看以下的數(shù)據(jù),在上一篇文章中對(duì)復(fù)旦語(yǔ)料庫(kù)進(jìn)行分詞,去停止詞,去無用詞性的詞的基礎(chǔ)上,再進(jìn)行一次根據(jù)DF的處理,去除所有文檔頻率小于等于3的詞,得到的對(duì)比結(jié)果如下.

文檔頻率篩選前

文檔頻率篩選后

總詞數(shù)116558


類別名稱:Agriculture

總詞數(shù):29163


類別名稱:Art

總詞數(shù):40816


類別名稱:Communication

總詞數(shù):2283


類別名稱:Computer

總詞數(shù):19340


類別名稱:Economy

總詞數(shù):37021


類別名稱:Education

總詞數(shù):5719


類別名稱:Electronics

總詞數(shù):2693


類別名稱:Energy

總詞數(shù):2848


類別名稱:Environment

總詞數(shù):25155


類別名稱:History

總詞數(shù):47205


類別名稱:Law

總詞數(shù):3834


類別名稱:Literature

總詞數(shù):5844


類別名稱:Medical

總詞數(shù):3877


類別名稱:Military

總詞數(shù):4615


類別名稱:Mine

總詞數(shù):3708


類別名稱:Philosophy

總詞數(shù):5190


類別名稱:Politics

總詞數(shù):35292


類別名稱:Space

總詞數(shù):14557


類別名稱:Sports

總詞數(shù):42665


類別名稱:Transport

總詞數(shù):4644

總詞數(shù)50283


類別名稱:Agriculture

總詞數(shù):23258


類別名稱:Art

總詞數(shù):30899


類別名稱:Communication

總詞數(shù):2207


類別名稱:Computer

總詞數(shù):15545


類別名稱:Economy

總詞數(shù):28363


類別名稱:Education

總詞數(shù):5437


類別名稱:Electronics

總詞數(shù):2604


類別名稱:Energy

總詞數(shù):2702


類別名稱:Environment

總詞數(shù):19781


類別名稱:History

總詞數(shù):31436


類別名稱:Law

總詞數(shù):3656


類別名稱:Literature

總詞數(shù):5500


類別名稱:Medical

總詞數(shù):3566


類別名稱:Military

總詞數(shù):4256


類別名稱:Mine

總詞數(shù):3507


類別名稱:Philosophy

總詞數(shù):4968


類別名稱:Politics

總詞數(shù):26046


類別名稱:Space

總詞數(shù):12136


類別名稱:Sports

總詞數(shù):30803


類別名稱:Transport

總詞數(shù):4276

怎么樣?總詞數(shù)從116558下降到50283,減少了一多半.可見生僻詞還是廣泛存在的.而具體到各個(gè)類別上也各不相同.減少的比較少的典型類別例如法律類,僅僅消減掉了4.6%的詞匯,而歷史類整整去除了33.4%!這倒也不難想象,因?yàn)榉筛拍钜话阌袠?biāo)準(zhǔn)的名稱和說法,文章也都有通用的格式或成文的套路遵循,作者本身發(fā)揮的余地不大.而歷史類文章包含大量的人名地名和事件名稱,這些名稱出現(xiàn)數(shù)量多但每一個(gè)出現(xiàn)的次數(shù)相對(duì)較少,而同時(shí)人名地名也很難作為區(qū)分文章主題的依據(jù)(出現(xiàn)諸葛就一定是說三國(guó)時(shí)期的事情么?我們計(jì)算所有位老師就姓諸葛,還恰好是搞自然語(yǔ)言處理方面的,呵呵),篩掉它們我們也不心疼.

有了這一步處理,又可以為開方檢驗(yàn)的計(jì)算增添不少方便.

(音樂再次響起,幕布再次緩慢拉上,燈光漸暗)