使用開方檢驗能夠修正文檔頻率作為特征選擇手段的一些不足,在對復旦大學語料庫作過一系列處理之后,為20個類別分別計算各自特征的開方值并排序(開方值越大則說明越應該作為特征被選中)之后,可以看出很多有意思的東西.記得在這一系列文章的part2中提到過僅僅使用詞頻來排序的時候,”個”這個詞如明星般的在很多類別中都頻繁出現在排名前十的位置上,但這個詞實際上沒有表意功能,對分類貢獻不大,是理應被特征選擇程序篩選掉的.使用開方檢驗方法后,我們驚喜的發現(讀者:切!前人早都發現無數次了……):“個”消失了!
我稍微摘選結果中的幾個類別在詞頻排序和開方值排序之間的比較,大家一起來瞅瞅。(前面也說過了,使用詞頻排序和使用文檔頻率情況大體相同,因此不再單獨列出)
歷史類別(History)
詞頻排序 |
開方值排序 |
歷史 詞頻:24303 中國 詞頻:15146 人 詞頻:11707 社會 詞頻:8655 發展 詞頻:8540 研究 詞頻:8007 文化 詞頻:7607 大 詞頻:6748 新 詞頻:6706 到 詞頻:6537 說 詞頻:6462 種 詞頻:5694 問題 詞頻:5304 政治 詞頻:5178 文學 詞頻:5176 年 詞頻:4830 經濟 詞頻:4810 思想 詞頻:4550 這種 詞頻:4476 個 詞頻:4276 |
近代史詞頻:350 史學 詞頻:2566 現代史詞頻:164 史料 詞頻:529 歷史學詞頻:771 世界史詞頻:169 史實 詞頻:294 戰爭 詞頻:2095 封建 詞頻:1156 歷史學詞頻:386 人物 詞頻:2399 統治 詞頻:1056 侵略 詞頻:501 記載 詞頻:625 歷史 詞頻:24303 斗爭 詞頻:1731 帝國主義詞頻:655 清政府詞頻:289 王朝 詞頻:370 民族 詞頻:4168 |
我列出了歷史類文章中兩種方法排名前二十的詞匯,可以發現使用詞頻(或者文檔頻率)統計的結果純粹無聊(簡直無聊,特別無聊),除了“歷史”,“社會”,“發展”聽著還像那么回事以外,什么“說”,“種”,“年”這樣的詞真該統統殺光光。
用了開方檢驗就果然不一樣,看看“史料”啊,“記載”呀,“王朝”呀,多正兒八經的歷史詞匯!我真是太喜歡開方檢驗啦!(笑)
當然結果也未必就十全十美了,我舉個計算機的例子給你看。
計算機類別(Computer)
詞頻排序 |
開方值排序 |
系統詞頻:45496 控制詞頻:21937 圖 詞頻:20396 方法詞頻:20073 個 詞頻:19661 算法詞頻:18879 數據詞頻:17691 模型詞頻:17182 網絡詞頻:16980 進行詞頻:16406 問題詞頻:14617 應用詞頻:13883 對象詞頻:13656 信息詞頻:13468 結構詞頻:12658 研究詞頻:12308 實現詞頻:11331 過程詞頻:11293 設計詞頻:10713 種 詞頻:10506 |
算法 詞頻:18879 自動化詞頻:2674 計算機詞頻:7569 函數 詞頻:9932 定義 詞頻:9817 關鍵詞詞頻:1956 軟件 詞頻:6189 引言 詞頻:937 集合 詞頻:3717 輸入 詞頻:6385 摘 詞頻:1540 定理 詞頻:4487 模型 詞頻:17182 用戶 詞頻:10053 參數 詞頻:8491 導師 詞頻:969 向量 詞頻:2658 期 詞頻:213 輸出 詞頻:6149 矩陣 詞頻:5431 |
看見”摘”這個詞了么?居然出現在第11位,現在我還要告訴你,如果不是在去停止詞的階段把”要”字給去掉了,”要”字也會出現在”摘”附近的位置上,聰明的讀者應該能大致猜出幾分原因了吧.沒錯,到復旦語料庫的計算機類文檔中稍稍察看就會發現,大量的文檔都有類似這樣的格式:
計算機應用
COMPUTER APPLICATIONS
1999年第19卷第6期 Vol.19 No.6 1999
一種基于智能Agent的協同工作模型
朱曉蕓 何欽銘 王申康
摘 要 計算機支持的協同工作(CSCW)需要研究出適應各種協同工作方式的靈活、開放、可擴充的模型結構。本文以分布式人工智能研究中的智能Agent為系統基本單元,提出一種基于智能Agent的協同工作模型,給出了它的具體實現。
關鍵詞 計算機支持的協同工作,智能Agent,分布式人工智能
AN INTELLIGENT AGENT BASED COLLABORATIVE WORK MODEL
Zhu XiaoyunHe QinmingWang Shenkang
看到”摘要”的位置了么?一來復旦語料庫計算機類的文檔大都是這類期刊文獻的形式,因此”摘要”這個詞頻繁出現;二來其他類別的語料雖然也都有大量以文獻作為來源的文檔,但甚少用到”摘要”這個詞;最后一點,注意到原文中”摘要”兩個字是被空格分開的,只有我們這些地球的主宰者,全能的人類才能看出他們是一個詞,而我們使用的分詞程序會毫不留情的將其判斷為”摘”和”要”兩個詞.這三點綜合作用的結果,就使得我們的程序認為”摘”這個詞對計算機類文檔有很強的代表性(當然,我們自己心里知道,這純屬無稽之談),從而入選了特征的TOP20。
以上分析給我們的啟示是:作為訓練集的文檔來源一定要廣泛,如果計算機類的文章還包括教科書,網頁,個人博客的內容,顯然就不會出現“摘”字這種笑話;另一方面,再一次重申,文本分類就應該是只依據文本的內容,而不應該包含文件的編碼,文章格式,發表時間等外部信息,“摘”字的笑話多少也是因為文章的格式(在“摘”和“要”之間總有空格)影響了分詞程序的判斷而致。
關于復旦語料庫所說的這些東西有點雜,有機會的話我會重新整理,再結合特征選擇的具體方法,把特征選擇的過程說說清楚。
以上。