隨筆-28  評論-51  文章-10  trackbacks-0
          TextMining04-分類.pdf

          自動分類的概念

           

          分類效果的評價

           

          P,R,F, 每個類的評價指標,總體類評價(宏觀、微觀)

           

          特征抽取(feature extraction)

          預處理

          文本表示(vsm

          特征選擇(Feature Selection)

          特征重構(Re-parameterisation,如LSI)

          文檔頻率法(DF, document frequency

           

          *TFIDF型權重

          TFTF*IDF: TFC: 對上面進行歸一化,LTC: 降低TF的作用

          *Robertson & SparckJones(idf) 公式,相關表,熵等,互信息不佳

           

          信息增益法information gain

           

          互信息法mutual information

           

          The X2 test(chi-square)

           

          分類算法

           

          KNN

           

           

          *

          Rocchio方法

          SVM

           

          注意: 特征重構(LSI),互信息表現(xiàn)不佳,TF*IDF的變形公式,SVM
          http://www.aygfsteel.com/Files/fullfocus/04.pdf
          posted on 2008-06-18 10:47 fullfocus 閱讀(1728) 評論(0)  編輯  收藏 所屬分類: 聚類算法研究
          主站蜘蛛池模板: 大石桥市| 通榆县| 黎川县| 竹溪县| 呼伦贝尔市| 两当县| 句容市| 襄城县| 堆龙德庆县| 寿宁县| 梧州市| 库伦旗| 徐州市| 扎赉特旗| 远安县| 麻城市| 织金县| 西充县| 乳山市| 长春市| 宁阳县| 万全县| 鲁甸县| 恩施市| 科尔| 威海市| 贡山| 常州市| 鲁甸县| 海原县| 龙海市| 江津市| 井陉县| 陈巴尔虎旗| 枝江市| 大埔县| 巴青县| 惠水县| 敦煌市| 甘孜| 灵石县|