fantasy-java
我越發(fā)的感覺到你就是我生命中的精靈，翻轉(zhuǎn)跳躍在我那空虛的時空；有人說世界上最美的是春天和愛情，在我眼中有你的地方就是最美的。

隨筆-95 評論-31 文章-10 trackbacks-0

機器學(xué)習(xí)最常見用途：預(yù)測和分類

機器學(xué)習(xí)常見分為兩種：

1：有監(jiān)督學(xué)習(xí) --> 根據(jù)已經(jīng)分類好的原始數(shù)據(jù)，訓(xùn)練生成模型，通過模型再去預(yù)測未知的數(shù)據(jù)進行分類，數(shù)學(xué)含義通俗解釋就是：我知道Y軸是什么，通過原始數(shù)據(jù)集(y=f(x)函數(shù)也可以是其它函數(shù)) 進行訓(xùn)練生成模型后，代入X來求得Y軸數(shù)據(jù)。
2：無監(jiān)督學(xué)習(xí) --> 并無分類好的原始數(shù)據(jù)，需要學(xué)習(xí)并提取分類，再進行訓(xùn)練生成模型

入門只看有監(jiān)督學(xué)習(xí)

流程：
1：獲取原始數(shù)據(jù)集
2：對每行數(shù)據(jù)的標簽即分類進行離散化或者數(shù)值化，也就是轉(zhuǎn)換成連續(xù)型數(shù)字或者0/1、true/false等離散化值，這里可能存在多類別問題即0，1，2，3，4，5.....多個類別
3：提取特征值并離散化或者數(shù)值化
4：根據(jù)類別對數(shù)據(jù)集進行有效劃分，這個劃分又有多種方式，按照信息熵變化來劃分(就是數(shù)據(jù)集變化前后的百分比，值越大表示混淆度越高)、按照比例進行有效劃分（這里是針對多類別劃分）即按照每種類別提取數(shù)據(jù)集再進行劃分訓(xùn)練集和測試集，最終合并起來，
這個時候數(shù)據(jù)分類劃分的比例就和原始數(shù)據(jù)比例是一樣的了。后面附上代碼
5：根據(jù)業(yè)務(wù)(即是預(yù)測數(shù)值型還是預(yù)測離散型即類別)，選取合適算法模型線性回歸、邏輯回歸、KNN(k-鄰近算法)、隨機森林、神經(jīng)網(wǎng)絡(luò)等等。線性回歸算法適合數(shù)值型預(yù)測、KNN、隨機森林、ID3、C4.5等算法適合分類也即離散型
6：通過第4步的數(shù)據(jù)劃分和第3步的特征提取，調(diào)用模型來進行訓(xùn)練、測試、預(yù)測，正確率越高，該模型越優(yōu)
7：對模型進行性能評估，提取模型參數(shù)
8：調(diào)用matplotlib等圖庫，對模型參數(shù)進行可視化處理，以及特征值的權(quán)重大小展示
9：調(diào)用模型，對新的數(shù)據(jù)集進行預(yù)測分類，即可完成實際業(yè)務(wù)問題

整個流程結(jié)束

posted on 2017-08-01 11:47 朔望魔刃閱讀(302) 評論(0) 編輯收藏所屬分類: python

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: 機器學(xué)習(xí)之K-鄰近算法機器學(xué)習(xí)流程-入門 eclipse+pyDev+Django

<

2017年8月

>

日

一

二

三

四

五

六

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

常用鏈接

留言簿

隨筆分類

隨筆檔案

文章分類

文章檔案

收藏夾

技術(shù)文章(2)

娛樂博客

周德東
郭敬明
韓寒
鬼谷女

牛博

其實我是一個程序員
博客大巴~~
很牛的C++程序員
夢幻之旅
達內(nèi)恩師
雪山飛鵠
高性能網(wǎng)站專家淘寶阿里架構(gòu)師

常用鏈接

留言簿

隨筆分類

隨筆檔案

文章分類

文章檔案

收藏夾

娛樂博客

牛博

搜索

最新評論

閱讀排行榜

評論排行榜