無為

無為則可為，無為則至深！

:: 管理

190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks

許多根據(jù)數(shù)據(jù)開發(fā)模型的方法都是從生物系統(tǒng)的學(xué)習(xí)能力，特別是從人的學(xué)習(xí)能力中得到的：是以數(shù)據(jù)驅(qū)動的方式來處理環(huán)境未知的統(tǒng)計屬性，人并不具有天生的學(xué)習(xí)能力，而是通過與環(huán)境之間的數(shù)據(jù)驅(qū)動相互作用學(xué)到的。

?? 從數(shù)據(jù)樣本中學(xué)習(xí)的問題可以描述為古典哲學(xué)的普通推理概念，每個預(yù)測學(xué)習(xí)過程都包括兩個主要階段：

1、 ? 從已知樣本集中學(xué)習(xí)或估計系統(tǒng)中的未知的相關(guān)性（歸納）

2、 ? 用估計出的相關(guān)性來預(yù)測系統(tǒng)對于將來的輸入值的新的輸出（演繹）

歸納學(xué)習(xí)和模型估計的過程可用不同的學(xué)習(xí)方法來描述，學(xué)習(xí)方法是一種估計系統(tǒng)在可用數(shù)據(jù)集中的輸入和輸出之間的未知映射的算法，即從已知樣本中進(jìn)行估計，一旦精確地估計出它們的相關(guān)性，就可以用于預(yù)測已知輸入值的情況下系統(tǒng)將做的輸出。

一、機器學(xué)習(xí)

機器學(xué)習(xí)作為人工智能和統(tǒng)計學(xué)的結(jié)合物，已被證明是一個富有成效的研究領(lǐng)域，產(chǎn)生了許多不同問題和這些問題解決方案的算法，所有算法都是搜索n維空間數(shù)據(jù)集，以找出一個合適的概括結(jié)果。機器學(xué)習(xí)的一個基本任務(wù)是歸納機器學(xué)習(xí)，它從樣本集中獲得概括結(jié)果，用不同的技術(shù)和模型來定型。

普通學(xué)習(xí)方案組成部分：

（1） ?????? 輸出發(fā)生器：隨機輸入向量X發(fā)生器

（2） ?????? 系統(tǒng)：對一個輸入向量X返回輸出Y

（3） ?????? 學(xué)習(xí)機器：根據(jù)觀測到的樣本，估計未知的系統(tǒng)映射

歸納學(xué)習(xí)機試圖從特定的、真正的事實，即我們所說的訓(xùn)練數(shù)據(jù)集中形成一般化的東西，這種歸納被定型為與系統(tǒng)行為相接近的函數(shù)集的形式，它的解決方法除了需要數(shù)據(jù)外，還需要先驗知識。所有的歸納學(xué)習(xí)方法都使用關(guān)于所選的那類學(xué)習(xí)機的近似函數(shù)的先驗知識。

二、統(tǒng)計學(xué)習(xí)

統(tǒng)計學(xué)習(xí)原理（SLT）是目前最好的用于有限樣本歸納學(xué)習(xí)的形式化理論。也被稱為Vapnik-Chervonenkis(VC)理論，嚴(yán)格地定義了所有歸納學(xué)習(xí)的相關(guān)概念，并為大多數(shù)歸納學(xué)習(xí)結(jié)果提供數(shù)據(jù)依據(jù)。其他學(xué)習(xí)方法如人工神經(jīng)網(wǎng)絡(luò)、貝葉斯推理、決策規(guī)則等更多地面向工程，重點在于實踐實現(xiàn)，不需要強大的理論依據(jù)。

歸納學(xué)習(xí)的目標(biāo)是在一類使用可用數(shù)據(jù)的近似函數(shù)中估計未知的相關(guān)性。最佳估計與最小期望風(fēng)險函數(shù)相對應(yīng)，包括數(shù)據(jù)的一般分布。分布未知，僅有的可用信息是有限的訓(xùn)練樣本。因此，唯一可行的是用一個近似函數(shù)來替換未知的真實風(fēng)險函數(shù)，這個近似函數(shù)叫經(jīng)驗風(fēng)險，可用根據(jù)可用數(shù)據(jù)集將其計算出來，這種方法叫經(jīng)驗風(fēng)險最小化（ERM）

ERM歸納原則是針對相對大型的數(shù)據(jù)集，當(dāng)數(shù)據(jù)集較小時，必須修正ERM原則，結(jié)構(gòu)風(fēng)險最小化（SRM）的歸納原則提出了正式的機制來從有限的和小型的數(shù)據(jù)集中選擇具有最優(yōu)復(fù)雜度的模型。

已知數(shù)據(jù)集最優(yōu)模型評估步驟：

（1） ?????? 選擇結(jié)構(gòu)的一個元素，使之有最佳復(fù)雜度

（2） ?????? 根據(jù)所選的結(jié)構(gòu)元素中定義的近似函數(shù)集來估計模型

?? SRM優(yōu)化策略：

（1） ?????? 梯度下降法

（2） ?????? 迭代法

（3） ?????? 貪心優(yōu)化

?優(yōu)化策略存在的問題：

（1） ?????? 初始條件靈敏度

（2） ?????? 停止規(guī)則的靈敏度（局部最小）

（3） ?????? 多局部最小靈敏度

三、學(xué)習(xí)方法類型

1、有指導(dǎo)學(xué)習(xí)

有指導(dǎo)學(xué)習(xí)用于從已知的輸入輸出樣本中估計未知的相關(guān)性，分類和回歸是這類歸納學(xué)習(xí)方法的共同任務(wù)，有指導(dǎo)學(xué)習(xí)存在一位老師-匹配函數(shù)或其他的一些模型估計的外部方法。

2、無指導(dǎo)學(xué)習(xí)

?? 只將有輸入值的樣本提供給學(xué)習(xí)系統(tǒng)，學(xué)習(xí)過程中沒有輸出的概念，無指導(dǎo)學(xué)習(xí)去掉了老師，并要求學(xué)習(xí)者自己建立并估計模型。

四、學(xué)習(xí)任務(wù)

2、分類

3、 ? 回歸

4、 ? 聚類

5、 ? 概括

6、 ? 相關(guān)性建模

7、 ? 異常檢測

凡是有該標(biāo)志的文章，都是該blog博主Caoer（草兒）原創(chuàng)，凡是索引、收藏
、轉(zhuǎn)載請注明來處和原文作者。非常感謝。

posted on 2006-05-25 21:21 草兒閱讀(155) 評論(0) 編輯收藏所屬分類: BI and DM

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: Capacity Planning for the Data Warehouse Environment Bill Gates Is A Failure cognos開發(fā)心得 WEB數(shù)據(jù)倉庫系統(tǒng)層次結(jié)構(gòu) 輕量級數(shù)據(jù)倉庫移動電信數(shù)據(jù)倉庫設(shè)計六環(huán)節(jié) 數(shù)據(jù)挖掘--極具發(fā)展前景的新領(lǐng)域智能學(xué)習(xí)資源最佳JAVA BI工具專家觀點：數(shù)據(jù)挖掘的本質(zhì)

無為

公告

隨筆分類(222)

隨筆檔案(188)

相冊

收藏夾(6)

AJAX

DB BI DM

ＪＡＶＡ編程論壇

ＵＭＬ技術(shù)論壇

搜索

積分與排名

最新評論

閱讀排行榜