隨筆-28  評論-51  文章-10  trackbacks-0
          TextMining04-分類.pdf

          自動分類的概念

           

          分類效果的評價

           

          P,R,F, 每個類的評價指標,總體類評價(宏觀、微觀)

           

          特征抽取(feature extraction)

          預處理

          文本表示(vsm

          特征選擇(Feature Selection)

          特征重構(Re-parameterisation,如LSI)

          文檔頻率法(DF, document frequency

           

          *TFIDF型權重

          TFTF*IDF: TFC: 對上面進行歸一化,LTC: 降低TF的作用

          *Robertson & SparckJones(idf) 公式,相關表,熵等,互信息不佳

           

          信息增益法information gain

           

          互信息法mutual information

           

          The X2 test(chi-square)

           

          分類算法

           

          KNN

           

           

          *

          Rocchio方法

          SVM

           

          注意: 特征重構(LSI),互信息表現不佳,TF*IDF的變形公式,SVM
          http://www.aygfsteel.com/Files/fullfocus/04.pdf
          posted on 2008-06-18 10:47 fullfocus 閱讀(1722) 評論(0)  編輯  收藏 所屬分類: 聚類算法研究
          主站蜘蛛池模板: 平利县| 武强县| 正阳县| 怀仁县| 会理县| 敦煌市| 永胜县| 宽甸| 壤塘县| 榕江县| 子长县| 兰考县| 东阳市| 闻喜县| 夹江县| 海伦市| 牙克石市| 剑川县| 长兴县| 九寨沟县| 福州市| 晴隆县| 南开区| 木兰县| 崇阳县| 台南市| 绥芬河市| 潜江市| 新和县| 泽库县| 盐城市| 六安市| 高青县| 英山县| 镇平县| 德化县| 新巴尔虎右旗| 广安市| 柳江县| 淄博市| 会昌县|