国产成人精品久久,精品国产乱子伦一区,欧洲亚洲一区二区三区四区五区

使用開方檢驗能夠修正文檔頻率作為特征選擇手段的一些不足,在對復旦大學語料庫作過一系列處理之后,為20個類別分別計算各自特征的開方值并排序(開方值越大則說明越應該作為特征被選中)之后,可以看出很多有意思的東西.記得在這一系列文章的part2中提到過僅僅使用詞頻來排序的時候,”個”這個詞如明星般的在很多類別中都頻繁出現在排名前十的位置上,但這個詞實際上沒有表意功能,對分類貢獻不大,是理應被特征選擇程序篩選掉的.使用開方檢驗方法后,我們驚喜的發現（讀者:切!前人早都發現無數次了……)：“個”消失了！

我稍微摘選結果中的幾個類別在詞頻排序和開方值排序之間的比較，大家一起來瞅瞅。（前面也說過了，使用詞頻排序和使用文檔頻率情況大體相同，因此不再單獨列出）

歷史類別（History）

詞頻排序

開方值排序

歷史詞頻：24303

中國詞頻：15146

人詞頻：11707

社會詞頻：8655

發展詞頻：8540

研究詞頻：8007

文化詞頻：7607

大詞頻：6748

新詞頻：6706

到詞頻：6537

說詞頻：6462

種詞頻：5694

問題詞頻：5304

政治詞頻：5178

文學詞頻：5176

年詞頻：4830

經濟詞頻：4810

思想詞頻：4550

這種詞頻：4476

個詞頻：4276

近代史詞頻：350

史學詞頻：2566

現代史詞頻：164

史料詞頻：529

歷史學詞頻：771

世界史詞頻：169

史實詞頻：294

戰爭詞頻：2095

封建詞頻：1156

歷史學詞頻：386

人物詞頻：2399

統治詞頻：1056

侵略詞頻：501

記載詞頻：625

歷史詞頻：24303

斗爭詞頻：1731

帝國主義詞頻：655

清政府詞頻：289

王朝詞頻：370

民族詞頻：4168

我列出了歷史類文章中兩種方法排名前二十的詞匯，可以發現使用詞頻（或者文檔頻率）統計的結果純粹無聊（簡直無聊，特別無聊），除了“歷史”，“社會”，“發展”聽著還像那么回事以外，什么“說”，“種”，“年”這樣的詞真該統統殺光光。

用了開方檢驗就果然不一樣，看看“史料”啊，“記載”呀，“王朝”呀，多正兒八經的歷史詞匯！我真是太喜歡開方檢驗啦！（笑）

當然結果也未必就十全十美了，我舉個計算機的例子給你看。

計算機類別（Computer）

詞頻排序

開方值排序

系統詞頻：45496

控制詞頻：21937

圖詞頻：20396

方法詞頻：20073

個詞頻：19661

算法詞頻：18879

數據詞頻：17691

模型詞頻：17182

網絡詞頻：16980

進行詞頻：16406

問題詞頻：14617

應用詞頻：13883

對象詞頻：13656

信息詞頻：13468

結構詞頻：12658

研究詞頻：12308

實現詞頻：11331

過程詞頻：11293

設計詞頻：10713

種詞頻：10506

算法詞頻：18879

自動化詞頻：2674

計算機詞頻：7569

函數詞頻：9932

定義詞頻：9817

關鍵詞詞頻：1956

軟件詞頻：6189

引言詞頻：937

集合詞頻：3717

輸入詞頻：6385

摘詞頻：1540

定理詞頻：4487

模型詞頻：17182

用戶詞頻：10053

參數詞頻：8491

導師詞頻：969

向量詞頻：2658

期詞頻：213

輸出詞頻：6149

矩陣詞頻：5431

看見”摘”這個詞了么?居然出現在第11位,現在我還要告訴你,如果不是在去停止詞的階段把”要”字給去掉了,”要”字也會出現在”摘”附近的位置上,聰明的讀者應該能大致猜出幾分原因了吧.沒錯,到復旦語料庫的計算機類文檔中稍稍察看就會發現,大量的文檔都有類似這樣的格式:

計算機應用

COMPUTER APPLICATIONS

1999年第19卷第6期 Vol.19 No.6 1999

一種基于智能Agent的協同工作模型

朱曉蕓　何欽銘　王申康

　　摘　要　計算機支持的協同工作（CSCW）需要研究出適應各種協同工作方式的靈活、開放、可擴充的模型結構。本文以分布式人工智能研究中的智能Agent為系統基本單元，提出一種基于智能Agent的協同工作模型，給出了它的具體實現。

　　關鍵詞　計算機支持的協同工作，智能Agent，分布式人工智能

AN INTELLIGENT AGENT BASED COLLABORATIVE WORK MODEL

Zhu XiaoyunHe QinmingWang Shenkang

看到”摘要”的位置了么?一來復旦語料庫計算機類的文檔大都是這類期刊文獻的形式,因此”摘要”這個詞頻繁出現;二來其他類別的語料雖然也都有大量以文獻作為來源的文檔,但甚少用到”摘要”這個詞;最后一點,注意到原文中”摘要”兩個字是被空格分開的,只有我們這些地球的主宰者,全能的人類才能看出他們是一個詞,而我們使用的分詞程序會毫不留情的將其判斷為”摘”和”要”兩個詞.這三點綜合作用的結果,就使得我們的程序認為”摘”這個詞對計算機類文檔有很強的代表性（當然，我們自己心里知道，這純屬無稽之談）,從而入選了特征的TOP20。

以上分析給我們的啟示是：作為訓練集的文檔來源一定要廣泛，如果計算機類的文章還包括教科書，網頁，個人博客的內容，顯然就不會出現“摘”字這種笑話；另一方面，再一次重申，文本分類就應該是只依據文本的內容，而不應該包含文件的編碼，文章格式，發表時間等外部信息，“摘”字的笑話多少也是因為文章的格式（在“摘”和“要”之間總有空格）影響了分詞程序的判斷而致。

關于復旦語料庫所說的這些東西有點雜，有機會的話我會重新整理，再結合特征選擇的具體方法，把特征選擇的過程說說清楚。

以上。

發表于 2008-12-20 12:45 Jasper 閱讀(2915) 評論(2) 編輯收藏所屬分類: 文本分類技術

復旦大學語料庫的一些統計信息Part4 開方檢驗

公告

常用鏈接

留言簿(64)

隨筆分類

隨筆檔案

文章分類

搜索

最新評論

閱讀排行榜

評論排行榜

Jasper's Java Jacal 嘉士伯的Java小屋
BlogJava \| 首頁 \| 發新隨筆 \| 發新文章 \| 聯系 \| 聚合 \| 管理	隨筆：51 文章：2 評論：717 引用：0