隨筆-28  評論-51  文章-10  trackbacks-0
          TextMining04-分類.pdf

          自動分類的概念

           

          分類效果的評價

           

          P,R,F, 每個類的評價指標,總體類評價(宏觀、微觀)

           

          特征抽取(feature extraction)

          預處理

          文本表示(vsm

          特征選擇(Feature Selection)

          特征重構(Re-parameterisation,如LSI)

          文檔頻率法(DF, document frequency

           

          *TFIDF型權重

          TFTF*IDF: TFC: 對上面進行歸一化,LTC: 降低TF的作用

          *Robertson & SparckJones(idf) 公式,相關表,熵等,互信息不佳

           

          信息增益法information gain

           

          互信息法mutual information

           

          The X2 test(chi-square)

           

          分類算法

           

          KNN

           

           

          *

          Rocchio方法

          SVM

           

          注意: 特征重構(LSI),互信息表現不佳,TF*IDF的變形公式,SVM
          http://www.aygfsteel.com/Files/fullfocus/04.pdf
          posted on 2008-06-18 10:47 fullfocus 閱讀(1728) 評論(0)  編輯  收藏 所屬分類: 聚類算法研究
          主站蜘蛛池模板: 绥阳县| 唐山市| 三明市| 平和县| 页游| 漯河市| 孟村| 灵石县| 双牌县| 孟津县| 湟源县| 东海县| 巴彦淖尔市| 甘德县| 马公市| 香格里拉县| 沁源县| 图片| 邻水| 青田县| 合阳县| 眉山市| 牡丹江市| 前郭尔| 辰溪县| 阜康市| 济源市| 晋中市| 淄博市| 揭东县| 阳原县| 长泰县| 新兴县| 广南县| 务川| 竹北市| 泰顺县| 尉氏县| 大新县| 抚顺县| 天气|