許多根據(jù)數(shù)據(jù)開發(fā)模型的方法都是從生物系統(tǒng)的學(xué)習(xí)能力,特別是從人的學(xué)習(xí)能力中得到的:是以數(shù)據(jù)驅(qū)動的方式來處理環(huán)境未知的統(tǒng)計屬性,人并不具有天生的學(xué)習(xí)能力,而是通過與環(huán)境之間的數(shù)據(jù)驅(qū)動相互作用學(xué)到的。
?? 從數(shù)據(jù)樣本中學(xué)習(xí)的問題可以描述為古典哲學(xué)的普通推理概念,每個預(yù)測學(xué)習(xí)過程都包括兩個主要階段:
1、
?
從已知樣本集中學(xué)習(xí)或估計系統(tǒng)中的未知的相關(guān)性(歸納)
2、
?
用估計出的相關(guān)性來預(yù)測系統(tǒng)對于將來的輸入值的新的輸出(演繹)
?
歸納學(xué)習(xí)和模型估計的過程可用不同的學(xué)習(xí)方法來描述,學(xué)習(xí)方法是一種估計系統(tǒng)在可用數(shù)據(jù)集中的輸入和輸出之間的未知映射的算法,即從已知樣本中進(jìn)行估計,一旦精確地估計出它們的相關(guān)性,就可以用于預(yù)測已知輸入值的情況下系統(tǒng)將做的輸出。
?
一、機器學(xué)習(xí)
機器學(xué)習(xí)作為人工智能和統(tǒng)計學(xué)的結(jié)合物,已被證明是一個富有成效的研究領(lǐng)域,產(chǎn)生了許多不同問題和這些問題解決方案的算法,所有算法都是搜索n維空間數(shù)據(jù)集,以找出一個合適的概括結(jié)果。機器學(xué)習(xí)的一個基本任務(wù)是歸納機器學(xué)習(xí),它從樣本集中獲得概括結(jié)果,用不同的技術(shù)和模型來定型。
普通學(xué)習(xí)方案組成部分:
(1)
??????
輸出發(fā)生器:隨機輸入向量X發(fā)生器
(2)
??????
系統(tǒng):對一個輸入向量X返回輸出Y
(3)
??????
學(xué)習(xí)機器:根據(jù)觀測到的樣本,估計未知的系統(tǒng)映射
歸納學(xué)習(xí)機試圖從特定的、真正的事實,即我們所說的訓(xùn)練數(shù)據(jù)集中形成一般化的東西,這種歸納被定型為與系統(tǒng)行為相接近的函數(shù)集的形式,它的解決方法除了需要數(shù)據(jù)外,還需要先驗知識。所有的歸納學(xué)習(xí)方法都使用關(guān)于所選的那類學(xué)習(xí)機的近似函數(shù)的先驗知識。
?
二、統(tǒng)計學(xué)習(xí)
統(tǒng)計學(xué)習(xí)原理(SLT)是目前最好的用于有限樣本歸納學(xué)習(xí)的形式化理論。也被稱為Vapnik-Chervonenkis(VC)理論,嚴(yán)格地定義了所有歸納學(xué)習(xí)的相關(guān)概念,并為大多數(shù)歸納學(xué)習(xí)結(jié)果提供數(shù)據(jù)依據(jù)。其他學(xué)習(xí)方法如人工神經(jīng)網(wǎng)絡(luò)、貝葉斯推理、決策規(guī)則等更多地面向工程,重點在于實踐實現(xiàn),不需要強大的理論依據(jù)。
歸納學(xué)習(xí)的目標(biāo)是在一類使用可用數(shù)據(jù)的近似函數(shù)中估計未知的相關(guān)性。最佳估計與最小期望風(fēng)險函數(shù)相對應(yīng),包括數(shù)據(jù)的一般分布。分布未知,僅有的可用信息是有限的訓(xùn)練樣本。因此,唯一可行的是用一個近似函數(shù)來替換未知的真實風(fēng)險函數(shù),這個近似函數(shù)叫經(jīng)驗風(fēng)險,可用根據(jù)可用數(shù)據(jù)集將其計算出來,這種方法叫經(jīng)驗風(fēng)險最小化(ERM)
ERM歸納原則是針對相對大型的數(shù)據(jù)集,當(dāng)數(shù)據(jù)集較小時,必須修正ERM原則,結(jié)構(gòu)風(fēng)險最小化(SRM)的歸納原則提出了正式的機制來從有限的和小型的數(shù)據(jù)集中選擇具有最優(yōu)復(fù)雜度的模型。
已知數(shù)據(jù)集最優(yōu)模型評估步驟:
(1)
??????
選擇結(jié)構(gòu)的一個元素,使之有最佳復(fù)雜度
(2)
??????
根據(jù)所選的結(jié)構(gòu)元素中定義的近似函數(shù)集來估計模型
?? SRM優(yōu)化策略:
(1)
??????
梯度下降法
(2)
??????
迭代法
(3)
??????
貪心優(yōu)化
?優(yōu)化策略存在的問題:
(1)
??????
初始條件靈敏度
(2)
??????
停止規(guī)則的靈敏度(局部最小)
(3)
??????
多局部最小靈敏度
?
三、學(xué)習(xí)方法類型
1、有指導(dǎo)學(xué)習(xí)
有指導(dǎo)學(xué)習(xí)用于從已知的輸入輸出樣本中估計未知的相關(guān)性,分類和回歸是這類歸納學(xué)習(xí)方法的共同任務(wù),有指導(dǎo)學(xué)習(xí)存在一位老師-匹配函數(shù)或其他的一些模型估計的外部方法。
2、無指導(dǎo)學(xué)習(xí)
?? 只將有輸入值的樣本提供給學(xué)習(xí)系統(tǒng),學(xué)習(xí)過程中沒有輸出的概念,無指導(dǎo)學(xué)習(xí)去掉了老師,并要求學(xué)習(xí)者自己建立并估計模型。
?
四、學(xué)習(xí)任務(wù)
2、分類
3、
?
回歸
4、
?
聚類
5、
?
概括
6、
?
相關(guān)性建模
7、
?
異常檢測
凡是有該標(biāo)志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
、轉(zhuǎn)載請注明來處和原文作者。非常感謝。