無為

          無為則可為,無為則至深!

            BlogJava :: 首頁 :: 聯(lián)系 :: 聚合  :: 管理
            190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks

          許多根據(jù)數(shù)據(jù)開發(fā)模型的方法都是從生物系統(tǒng)的學(xué)習(xí)能力,特別是從人的學(xué)習(xí)能力中得到的:是以數(shù)據(jù)驅(qū)動的方式來處理環(huán)境未知的統(tǒng)計屬性,人并不具有天生的學(xué)習(xí)能力,而是通過與環(huán)境之間的數(shù)據(jù)驅(qū)動相互作用學(xué)到的。

          ?? 從數(shù)據(jù)樣本中學(xué)習(xí)的問題可以描述為古典哲學(xué)的普通推理概念,每個預(yù)測學(xué)習(xí)過程都包括兩個主要階段:

          1、 ? 從已知樣本集中學(xué)習(xí)或估計系統(tǒng)中的未知的相關(guān)性(歸納)

          2、 ? 用估計出的相關(guān)性來預(yù)測系統(tǒng)對于將來的輸入值的新的輸出(演繹)

          ?

          歸納學(xué)習(xí)和模型估計的過程可用不同的學(xué)習(xí)方法來描述,學(xué)習(xí)方法是一種估計系統(tǒng)在可用數(shù)據(jù)集中的輸入和輸出之間的未知映射的算法,即從已知樣本中進(jìn)行估計,一旦精確地估計出它們的相關(guān)性,就可以用于預(yù)測已知輸入值的情況下系統(tǒng)將做的輸出。

          ?

          一、機器學(xué)習(xí)

          機器學(xué)習(xí)作為人工智能和統(tǒng)計學(xué)的結(jié)合物,已被證明是一個富有成效的研究領(lǐng)域,產(chǎn)生了許多不同問題和這些問題解決方案的算法,所有算法都是搜索n維空間數(shù)據(jù)集,以找出一個合適的概括結(jié)果。機器學(xué)習(xí)的一個基本任務(wù)是歸納機器學(xué)習(xí),它從樣本集中獲得概括結(jié)果,用不同的技術(shù)和模型來定型。

          普通學(xué)習(xí)方案組成部分:

          1) ?????? 輸出發(fā)生器:隨機輸入向量X發(fā)生器

          2) ?????? 系統(tǒng):對一個輸入向量X返回輸出Y

          3) ?????? 學(xué)習(xí)機器:根據(jù)觀測到的樣本,估計未知的系統(tǒng)映射

          歸納學(xué)習(xí)機試圖從特定的、真正的事實,即我們所說的訓(xùn)練數(shù)據(jù)集中形成一般化的東西,這種歸納被定型為與系統(tǒng)行為相接近的函數(shù)集的形式,它的解決方法除了需要數(shù)據(jù)外,還需要先驗知識。所有的歸納學(xué)習(xí)方法都使用關(guān)于所選的那類學(xué)習(xí)機的近似函數(shù)的先驗知識。

          ?

          二、統(tǒng)計學(xué)習(xí)

          統(tǒng)計學(xué)習(xí)原理(SLT)是目前最好的用于有限樣本歸納學(xué)習(xí)的形式化理論。也被稱為Vapnik-Chervonenkis(VC)理論,嚴(yán)格地定義了所有歸納學(xué)習(xí)的相關(guān)概念,并為大多數(shù)歸納學(xué)習(xí)結(jié)果提供數(shù)據(jù)依據(jù)。其他學(xué)習(xí)方法如人工神經(jīng)網(wǎng)絡(luò)、貝葉斯推理、決策規(guī)則等更多地面向工程,重點在于實踐實現(xiàn),不需要強大的理論依據(jù)。

          歸納學(xué)習(xí)的目標(biāo)是在一類使用可用數(shù)據(jù)的近似函數(shù)中估計未知的相關(guān)性。最佳估計與最小期望風(fēng)險函數(shù)相對應(yīng),包括數(shù)據(jù)的一般分布。分布未知,僅有的可用信息是有限的訓(xùn)練樣本。因此,唯一可行的是用一個近似函數(shù)來替換未知的真實風(fēng)險函數(shù),這個近似函數(shù)叫經(jīng)驗風(fēng)險,可用根據(jù)可用數(shù)據(jù)集將其計算出來,這種方法叫經(jīng)驗風(fēng)險最小化(ERM)

          ERM歸納原則是針對相對大型的數(shù)據(jù)集,當(dāng)數(shù)據(jù)集較小時,必須修正ERM原則,結(jié)構(gòu)風(fēng)險最小化(SRM)的歸納原則提出了正式的機制來從有限的和小型的數(shù)據(jù)集中選擇具有最優(yōu)復(fù)雜度的模型。

          已知數(shù)據(jù)集最優(yōu)模型評估步驟:

          1) ?????? 選擇結(jié)構(gòu)的一個元素,使之有最佳復(fù)雜度

          2) ?????? 根據(jù)所選的結(jié)構(gòu)元素中定義的近似函數(shù)集來估計模型

          ?? SRM優(yōu)化策略:

          1) ?????? 梯度下降法

          2) ?????? 迭代法

          3) ?????? 貪心優(yōu)化

          ?優(yōu)化策略存在的問題:

          1) ?????? 初始條件靈敏度

          2) ?????? 停止規(guī)則的靈敏度(局部最小)

          3) ?????? 多局部最小靈敏度

          ?

          三、學(xué)習(xí)方法類型

          1、有指導(dǎo)學(xué)習(xí)

          有指導(dǎo)學(xué)習(xí)用于從已知的輸入輸出樣本中估計未知的相關(guān)性,分類和回歸是這類歸納學(xué)習(xí)方法的共同任務(wù),有指導(dǎo)學(xué)習(xí)存在一位老師-匹配函數(shù)或其他的一些模型估計的外部方法。

          2、無指導(dǎo)學(xué)習(xí)

          ?? 只將有輸入值的樣本提供給學(xué)習(xí)系統(tǒng),學(xué)習(xí)過程中沒有輸出的概念,無指導(dǎo)學(xué)習(xí)去掉了老師,并要求學(xué)習(xí)者自己建立并估計模型。

          ?

          四、學(xué)習(xí)任務(wù)

          2、分類

          3、 ? 回歸

          4、 ? 聚類

          5、 ? 概括

          6、 ? 相關(guān)性建模

          7、 ? 異常檢測



          凡是有該標(biāo)志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
          、轉(zhuǎn)載請注明來處和原文作者。非常感謝。

          posted on 2006-05-25 21:21 草兒 閱讀(155) 評論(0)  編輯  收藏 所屬分類: BI and DM
          主站蜘蛛池模板: 威信县| 蒙自县| 油尖旺区| 临朐县| 南城县| 嘉祥县| 韩城市| 沙洋县| 稻城县| 黑河市| 封丘县| 莒南县| 平邑县| 桐城市| 阿荣旗| 澜沧| 汝阳县| 竹北市| 迁西县| 太和县| 石屏县| 仲巴县| 安仁县| 卓尼县| 上思县| 安福县| 二手房| 腾冲县| 营口市| 甘谷县| 徐州市| 惠东县| 萨迦县| 长治市| 平阴县| 綦江县| 钦州市| 元谋县| 沅陵县| 萨迦县| 布拖县|