qileilove

          blog已經轉移至github,大家請訪問 http://qaseven.github.io/

          量化項目管理案例:缺陷趨勢預測利器(5)

          在上一篇里,已經介紹了如何選擇曲線模型,這一篇里,將會介紹怎樣預測出該模型下符合實際數據的曲線,選擇合適的模型。(模型的擬合算法將單獨介紹)

            給定一組實際數據,要讓你預測出今后的一段時間,該數據的發展趨勢,很多情況下,你并不能一下子就找到符合這組數據發展趨勢的模型。而實際上,又有太多模型可以選擇,每一個模型都會得到一個不同的發展趨勢。好比買衣服,琳瑯滿目、各式各樣,可是,到底哪一件適合你要出席的場合呢?所以,到底是指數合適,還是Gompertz合適,又或者是Logistic合適呢?

            這個時候,就迫切的需要一個評判的標準,這種標準稱為擬合度。擬合度的評價也有幾種方法,本文列出了幾種常用的擬合度判斷方法,并對這幾種方法進行總結、對比。

            ◆ 利用相關系數R2來進行擬合度判斷

            相關系數R2是一種常見的擬合度的判斷方法,常用于判斷線性曲線的擬合度,然而在許多非線性曲線的擬合度判定過程中使用的依然是判斷R2的方法,這個判斷標準在實踐中也被證明是符合實際的。實際中,R2較大的曲線模型,往往也是擬合較好的模型。

            ● 計算殘差平方和Q=∑(y-y*)^2,其中,y代表的是實測值,y*代表的是預測值

            ● 計算相關系數R2=1-Q/∑(y-ya)^2,其中,y代表的是實測值,ya代表的是實測值的平均數

            ● 判斷方式:R2越大、越接近1,認為擬合度越好

            ◆ 利用變換的R2來進行擬合度判斷——以Gompertz曲線和Logistic曲線為例

            Gompertz曲線和Logistic曲線的預測過程(無論是三點法還是三和法)首先都需將模型的函數進行變換(對Gompertz模型進行對數變換,對Logistic模型進行倒數變換),然后再運用三和法或者三點法的原理進行計算。所以這里提出一種運用變換的相關系數R2來進行擬合度判斷。

            ● Gompertz曲線

            ◇ 分別將實測值和預測值進行對數變換

            ◇ 將對數變換后的實測值記作y,將對數變換后的預測值記作y*

            ◇ 根據相關系數的計算方法,計算變換后的殘差平方和Q和相關系數R2

            ● Logistic曲線

            ◇ 分別將實測值和預測值進行求倒數變換

            ◇ 將求倒變換后的實測值記作y,將求倒變換后的預測值記作y*

            ◇ 根據相關系數的計算方法,計算變換后的殘差平方和Q和相關系數R2

            ◆ 利用實測數據與擬合數據來進行擬合度判斷

            由于R2是用于判斷線性模型的擬合程度的,對于非線性曲線,似乎不具有什么理論上的支持,所以,出現了許多針對非線性曲線進行的擬合度判定。下面的方法是其中的一種。

            ● 同樣,計算殘差平方和Q=∑(y-y*)^2和∑y^2,其中,y代表的是實測值,y*代表的是預測值

            ● 計算新的擬合度指標RNew=1-(Q/∑y^2)^(1/2)

            ● 判斷方式:RNew越接近1,認為擬合度越好

            ◆ 利用余弦函數進行輔助判斷

            從上一種方法中可以看出,在參數個數相同的前提下,擬合值越接近實測值,則認為擬合得越好。由此出現了根據幾何意義得到的方法:若把實測值和預測值視為N維空間中的向量,若它們之間的夾角Θ越小,則可以認為擬合得越好。這里,計算角余弦系數FR=cosΘ=∑(yy*)/((∑y^2)^(1/2)* (∑y*^2)^(1/2))。

            經實驗證明,RNew的分辨率和靈敏度都較高,計算簡單。實際中,可先用FR初選,再用RNew精選,可能會得到較好的結果。

          ◆ 平均絕對偏差、平均平方誤差、平均預測誤差和平均絕對百分誤差

            下面將介紹平均絕對偏差、平均平方誤差、平均預測誤差和平均絕對百分誤差這四個評價指標。下面各指標中,At表示時段t的實際值,Ft表示時段t的預測值,n是整個預測期內的時段個數(或預測次數)。

            ● 平均絕對偏差MAD:Mean Absolute Deviation

            平均絕對偏差就是整個預測期內每一次預測值與實際值的絕對偏差(不分正負,只考慮偏差量)的平均值。

            公式:MAD=(∑|At-Ft|)/n,t=1…n

            MAD與標準偏差類似,但更容易求得。MAD能較好地反映預測的精度,但它不容易衡量無偏性。

            ● 平均平方誤差MSE:Mean Square Error

            公式:MSE=(∑At-Ft)^2/n,t=1…n

            MSE與MAD相似,可以較好的反映精度,但無法衡量無偏性。

            ● 平均預測誤差MFE:Mean Forecast Error

            平均預測誤差是指預測誤差的和的平均值。

            公式:MFE=(∑(At-Ft))/n,t=1…n

            其中,∑(At-Ft),t=1…n被稱作預測誤差滾動和RSFE(Running Sum of Forecast Errors)。如果預測模型是無偏的,RSFE應該接近于0,即MFE應接近于0。因此MFE能很好的衡量預測模型的無偏性,但它不能反映預測值偏離實際的程度。

            ● 平均絕對百分誤差MAPE(Mean Absolute Percentage Error)

            公式:MAPE=(∑|(At-Ft)/At|)/n,t=1…n

            一般認為MAPE小于10時,預測精度較高。

            MAD、MFE、MSE和MAPE是幾種常用的衡量預測誤差的指標,但單一的指標很難全面地評價一個預測模型,在實際中可以將它們結合起來使用,選擇較為合適的模型。

            經公司內部項目數據的實驗證明,這幾種擬合度的判斷方法得到的結果是相互印證的,某一個模型計算得到的幾種擬合度的趨勢往往是相同的,這樣可以輔助我們去判斷選擇較為合適的模型。但記住這樣一句話:“所有的模型都是錯的”。任何一個模型都有自己的局限性和假設要求,沒有一個模型能夠被證明是現實數據的真實反映。模型只是用來幫助我們解決問題的一種工具,可靠性增長模型也不例外。選擇模型前,考慮實際使用中可能出現的現象,多問自己幾個問題,多去尋找一些答案,而不是僅僅依靠擬合度的計算,以此來有效的構建合適的模型。

            下表是幾種擬合度指標的使用場景。

            最后要說的還是那句話:所有的模型都是錯的。依靠擬合度并不是目的,更不是真理,在選擇模型前,多問自己幾個問題,您的經驗和知識,同樣是選擇時的重要手段哦。

          擬合度指標

          使用場景

          R2

          對線性曲線,R2能反映出擬合的好壞,對非線性曲線,實際也能得到較符合的結果,簡便計算時可使用

          變形R2

          R2更有理論說服力,擬合趨勢與R2相近。但對某些情況可能無法進行計算,比如實測數據中出現0時,無法計算對數值和倒數值

          RNL

          判斷非線性曲線擬合度時更有理論基礎,試驗證明其分辨率和靈敏度都較高,可在細選模型時使用

          FR

          實踐應用時,先用FR(放大鏡)初選,再用分辨率和靈敏度高的RNL(顯微鏡)精選,會得到較好的結果

          MAD

          能較好地反映預測的精度,但不容易衡量無偏性。MAD容易求得,要求計算簡單時可使用,可配合MFEMAPE使用

          MFE

          能很好的衡量預測模型的無偏性,但它不能反映預測值偏離實際的程度,可配合MAPE使用

          MSE

          MAD相似,可以較好的反映精度,但無法衡量無偏性,可配合MFEMAPE使用

          MAPE

          能很好的衡量預測模型的無偏性,可配合MADMSE使用

          MAD+ MFE+ MSE+ MAPE

          MADMFEMSEMAPE是幾種常用的衡量預測誤差的指標,但任何單一的一種指標都很難全面地評價一個預測模型,在實際中可以將它們結合使用,根據選擇的要求,需要精度較高的或偏離較低的模型,以此選擇較為合適的模型。

          相關鏈接:

          量化項目管理案例:缺陷趨勢預測利器(1)

          量化項目管理案例:缺陷趨勢預測利器(2)

          量化項目管理案例:缺陷趨勢預測利器(3)

          量化項目管理案例:缺陷趨勢預測利器(4)

          posted on 2011-11-04 15:08 順其自然EVO 閱讀(1176) 評論(0)  編輯  收藏

          <2011年11月>
          303112345
          6789101112
          13141516171819
          20212223242526
          27282930123
          45678910

          導航

          統計

          常用鏈接

          留言簿(55)

          隨筆分類

          隨筆檔案

          文章分類

          文章檔案

          搜索

          最新評論

          閱讀排行榜

          評論排行榜

          主站蜘蛛池模板: 嘉禾县| 区。| 霍邱县| 霍州市| 博湖县| 金川县| 思南县| 耒阳市| 从江县| 浦城县| 岫岩| 库伦旗| 越西县| 乳源| 彭泽县| 富顺县| 谢通门县| 沙田区| 张家川| 丹凤县| 刚察县| 湄潭县| 大埔县| 马鞍山市| 漠河县| 萝北县| 家居| 金沙县| 阿拉善右旗| 石楼县| 玛纳斯县| 武义县| 米泉市| 临沂市| 珲春市| 皮山县| 阿城市| 金门县| 临高县| 布尔津县| 五寨县|