隨筆-28  評論-51  文章-10  trackbacks-0
          TextMining04-分類.pdf

          自動分類的概念

           

          分類效果的評價

           

          P,R,F, 每個類的評價指標,總體類評價(宏觀、微觀)

           

          特征抽取(feature extraction)

          預處理

          文本表示(vsm

          特征選擇(Feature Selection)

          特征重構(gòu)(Re-parameterisation,如LSI)

          文檔頻率法(DF, document frequency

           

          *TFIDF型權(quán)重

          TFTF*IDF: TFC: 對上面進行歸一化,LTC: 降低TF的作用

          *Robertson & SparckJones(idf) 公式,相關(guān)表,熵等,互信息不佳

           

          信息增益法information gain

           

          互信息法mutual information

           

          The X2 test(chi-square)

           

          分類算法

           

          KNN

           

           

          *

          Rocchio方法

          SVM

           

          注意: 特征重構(gòu)(LSI),互信息表現(xiàn)不佳,TF*IDF的變形公式,SVM
          http://www.aygfsteel.com/Files/fullfocus/04.pdf
          posted on 2008-06-18 10:47 fullfocus 閱讀(1722) 評論(0)  編輯  收藏 所屬分類: 聚類算法研究
          主站蜘蛛池模板: 常熟市| 班戈县| 东丰县| 和平县| 庄河市| 镇雄县| 宿迁市| 仲巴县| 佳木斯市| 恩平市| 易门县| 沭阳县| 金湖县| 神池县| 克拉玛依市| 陆良县| 阳东县| 闵行区| 昔阳县| 外汇| 昭觉县| 龙门县| 张家口市| 沅江市| 鲜城| 水富县| 红桥区| 亳州市| 日喀则市| 偏关县| 禹城市| 贺兰县| 泰宁县| 贺州市| 德江县| 阳春市| 云安县| 分宜县| 屯留县| 乐东| 丹凤县|