隨筆-95  評論-31  文章-10  trackbacks-0

          機器學習最常見用途:預測和分類

          機器學習常見分為兩種:

          1:有監(jiān)督學習  -->  根據(jù)已經(jīng)分類好的原始數(shù)據(jù),訓練生成模型,通過模型再去預測未知的數(shù)據(jù)進行分類, 數(shù)學含義通俗解釋就是:我知道Y軸是什么,通過原始數(shù)據(jù)集(y=f(x)函數(shù)也可以是其它函數(shù)) 進行訓練生成模型后,代入X來求得Y軸數(shù)據(jù)。
          2:無監(jiān)督學習  -->  并無分類好的原始數(shù)據(jù),需要學習并提取分類,再進行訓練生成模型

          入門只看有監(jiān)督學習

          流程:
          1:獲取原始數(shù)據(jù)集
          2:對每行數(shù)據(jù)的標簽即分類進行離散化或者數(shù)值化,也就是轉換成連續(xù)型數(shù)字或者0/1、true/false等離散化值,這里可能存在多類別問題即0,1,2,3,4,5.....多個類別
          3:提取特征值并離散化或者數(shù)值化
          4:根據(jù)類別對數(shù)據(jù)集進行有效劃分,這個劃分又有多種方式,按照信息熵變化來劃分(就是數(shù)據(jù)集變化前后的百分比,值越大表示混淆度越高)、按照比例進行有效劃分(這里是針對多類別劃分)即按照每種類別提取數(shù)據(jù)集再進行劃分訓練集和測試集,最終合并起來,
               這個時候數(shù)據(jù)分類劃分的比例就和原始數(shù)據(jù)比例是一樣的了。后面附上代碼
          5:根據(jù)業(yè)務(即是預測數(shù)值型還是預測離散型即類別),選取合適算法模型線性回歸、邏輯回歸、KNN(k-鄰近算法)、隨機森林、神經(jīng)網(wǎng)絡等等。 線性回歸算法適合數(shù)值型預測、KNN、隨機森林、ID3、C4.5等算法適合分類也即離散型
          6:通過第4步的數(shù)據(jù)劃分和第3步的特征提取,調用模型來進行訓練、測試、預測,正確率越高,該模型越優(yōu)
          7:對模型進行性能評估,提取模型參數(shù)
          8:調用matplotlib等圖庫,對模型參數(shù)進行可視化處理,以及特征值的權重大小展示
          9:調用模型,對新的數(shù)據(jù)集進行預測分類,即可完成實際業(yè)務問題

          整個流程結束


          posted on 2017-08-01 11:47 朔望魔刃 閱讀(299) 評論(0)  編輯  收藏 所屬分類: python

          只有注冊用戶登錄后才能發(fā)表評論。


          網(wǎng)站導航:
           
          主站蜘蛛池模板: 江山市| 镇坪县| 宽城| 桦甸市| 广东省| 清河县| 通榆县| 萝北县| 平江县| 澄城县| 河池市| 天柱县| 汕头市| 永修县| 安图县| 于田县| 乐山市| 磐安县| 宝兴县| 长泰县| 印江| 铜鼓县| 巴马| 奉化市| 太谷县| 郯城县| 叶城县| 克山县| 新余市| 平泉县| 石城县| 天等县| 英吉沙县| 扬州市| 内乡县| 巧家县| 乌苏市| 磐石市| 丰县| 融水| 禄劝|