走在架構師的大道上 Jack.Wang's home

Java, C++, linux c, C#.net 技術,軟件架構,領域建模,IT 項目管理 Dict.CN 在線詞典, 英語學習, 在線翻譯

BlogJava

管理

195 Posts :: 3 Stories :: 728 Comments :: 0 Trackbacks

數據挖掘的理論基礎[轉載]

應該如何完整地理解“數據挖掘”？“數據挖掘”的理論基礎是什么？

圖1表示的是：

現實中人類的社會和經濟活動，總可以用數據（數字或者符號）來描述和記錄；經過對這些數據的分析，就會產生信息（知識）；用這些信息（知識）來指導實踐，就可以做出相應的決策；這些決策又引發了新一輪的社會和經濟活動。循環往復，生息不止。

那么數據倉庫（DW）、商務智能（BI）和知識發現（KDD）又分別是什么呢？

圖2中的虛線部分有兩個含義。

第一是因為上述概念誕生初始，在DM的價值鏈上還是有所側重的，數據倉庫重在“建倉”，數據挖掘和知識發現重在“加工”，商務智能重在“應用”。虛線表示曾經擁有。

第二，如果不這樣畫，理論界、應用廠商會不答應，因為不管原來是做數據庫的（IBM，Sybase，NCR，Oracle，Microsoft，etc），還是做統計分析軟件的（SAS，Statistica，SPSS，etc），甚至是做報表工具的（BO，Brio，Cognos，etc），都拼命在延伸自己的價值鏈。

所以，干脆叫數據管理（也就是DM）好了，一統天下。

至于ERP，CRM等，說白了，還是個DM，只不過限制在了具體的社會經濟活動上罷了。

六種挖掘武器

數據倉庫的建設和數據挖掘建模是DM價值鏈上的兩大技術要點。數據挖掘從狹義的角度講，只管從數據到知識這一段。作為一個數據挖掘人員的起碼要求，就是充分掌握各種挖掘工具的性能、局限、應用條件等。

一般說來，數據挖掘有如下六件武器：描述統計、關聯和相關、分類和聚類、預測、優化、結構方程模型。簡要說明如下：

（1）描述統計（Deive statistics）

描述統計是數據挖掘的入門兵器，直觀、簡單，高手常常用來摘葉飛花。描述統計包括平均數、中位數、眾數、分位數、百分比、求和等。描述統計經常和統計圖（如直方圖，條形圖，線圖，散點圖，莖葉圖等）配合使用。目前應用最為廣泛的OLAP，究其本質就是針對不同的數據群在做描述統計。

描述統計的應用十分廣泛：比如當月公司利潤總額，比較不同區域的銷售量等等。

（2）關聯和相關（Association and Correlation）

關聯規則從本質上講是條件概率：A發生時，B同時也出現的概率是多大？只要B離50％較遠，就是有意義的。

關聯規則的一個典型的現代應用是“啤酒加尿布”。在應用關聯規則時還需要多考慮的一個問題是：這條規則遵循者的數量怎樣？通俗的說就是，如果超市的尿布只有一個人買（假設），但是這人每次買尿布時，一定會買啤酒。盡管這條規則很可信（100％），但是意義卻不大。

在應用關聯規則時，要注意兩點：關聯不一定是因果，關聯是有方向的。

相關也是考慮兩個事物之間的關系，典型的度量方法有Pearson相關系數和Kendall相關系數。

（3）分類和聚類

分類和聚類是最常用的技術。

一般說來，分類的方法有三種：回歸、決策樹、神經網絡。

聚類和分類的最大區別就是，分類是有監督的，聚類是無監督的。什么叫監督呢？就是標準，或者說有目標變量。聚類是沒有目標的。“物以類聚，人以群分”。聚類是不知道每一類有什么特征的，聚后再總結，再發現共同點。

（4）預測

預測的常用方法是時間序列，回歸也可以用來預測。

時間序列常用的方法有：ARMA，指數平滑和趨勢外推等。時間序列的最大特點就是充分挖掘事物本身隨時間的規律。因為，任何事物，比如企業銷售額，在沒有特別的外在因素影響下，總是有規可循的。

（5）優化

優化本是運籌學中的一個概念，主要解決的一個問題是在各種約束條件下，如何合理配置資源，使目標要素最大（?。┗?

（6）結構方程模型

不同于以上應用，結構方程模型重點在于如何揭示事物內部的結構和相互作用的原理。比如，如何度量客戶滿意度？客戶滿意度與客戶期望，產品，價格，服務，投訴處理和客戶忠誠是什么關系？是怎么作用的？只有搞清楚了這些關系，才可能不斷提高客戶滿意度和客戶忠誠度。結構方程模型就起到這種作用。

數據如何完整呈現？

從應用的角度來說，DM不單是數據的組織或者呈現，也不僅是數據分析和統計建模，而是一個從理解業務需求、尋求解決方案到接受實踐檢驗的完整的過程（Process）。

業界有許多指導項目實踐的方法論，大同小異，以CRISP-DM為例。

CRISP-DM分成如下六個階段：商業理解（Business Understanding），數據理解(Data Understanding)，數據準備(Data Preparation)，建模(Modeling)，評估(Evaluation)和發布(Deployment)。

打個比方，譬如炒菜待客，商業理解就是了解顧客的口味；數據理解則是熟悉每一樣原料可以炒什么菜；數據準備則是根據顧客的口味和廚師的經驗，配菜，擇菜和洗菜；而建模就全靠大廚炒菜的水平；到了評估階段就是顧客品嘗；如果滿意則到了最后的階段，作為招牌菜發布推廣。DM的過程就是客戶空腹而來，滿意而歸的完整的服務過程。

一個成功的DM項目，不僅可以面向操作層面，加強自動化；還可以面向決策層，優化決策。

實施計劃細部署

根據NCR數據挖掘方法論，NCR將數據挖掘項目的實施劃分為五個階段，包括定義業務問題范圍、選取和抽樣、探索型數據分析、建模和實施。

1．定義業務問題范圍：在這個初始階段，需明確闡述項目目標和客戶業務需求，目的是明確數據挖掘問題。任務包括：明確業務目標；定義響應變量；項目計劃必要的調整。

2．選取和抽樣：在這個階段，建模小組要搜尋并檢查客戶數據，作為以后分析挖掘時所用變量的簡略一覽表。同時從數據總體中抽樣生成訓練集、驗證集和測試集。任務包括：數據來源、數據映射、準備數據評估、數據的必要聚合、數據抽樣。

3．探索型數據分析（數據探索）：在這個階段中，建模小組核查目前的數據源，并且努力去發現在每個待選的自變量和目標變量之間是否有任何關系。通常，數值分析是全面理解數據的第一步，跟著進行的統計分析是為了得到有關數據分布的更好知識。在數據挖掘過程中這是一個關鍵的階段。

任務包括：數據質量檢查；數據的必要整理；通過圖形化呈現工具和其他的統計方法理解數據；分析待選自變量和目標變量之間的關系；數據轉換以輔助數據的分析；數據派生為建立模型做準備；整理和呈現數據探索的發現。

4．建模：在這個階段，建模小組建立并確認挖掘模型。建模小組通常嘗試不同的建模技術或結合不同數據集，并衡量模型性能的不同，選出最好的。來自最終用戶的業務領域知識在這個階段是非常關鍵的，因為他們可以評價和確認模型的結果、理解發現并付諸實際行動。

任務包括：為模型的訓練和驗證準備數據集；在模型的建立中使用適當的建模技術；針對不同的建模技術測試模型性能；必要地精煉挖掘模型；和主題專家一起檢驗挖掘模型；記錄挖掘模型和結果。

5．實施：在這個階段，需要用模型的結果來幫助做出業務決定、戰略設計和戰術實施。收集實施結果反饋，為模型的退化進行偵測，更進一步改善模型性能。在利用模型的結果時，復雜的展示層界面通常是不必要的。數據挖掘過程的自動化是CRM（客戶關系管理）的解決方案中不可或缺的一部分，因此是與典型的數據挖掘分開實施的項目。

任務包括：客戶模型評分和存儲模型結果，性能跟蹤和進一步整合其它業務系統；數據挖掘過程的自動化是單獨的項目；模型結果的現場測試是單獨的項目。

數據挖掘項目的項目計劃會涵蓋以上的各個階段，但完成整個項目所需的時間則要根據多個關鍵因素而定，如挖掘專題的復雜程度、客戶對挖掘結果性能評定的期望、可用的數據完備性及數據質量、項目人力資源是否充足以及人員能力等等。如表1是為期二個月（40個工作日）的數據挖掘項目計劃，可以作為其他挖掘項目制定計劃的參考基準。

從表1的項目計劃可以看出，數據挖掘項目需要參與的成員或角色有：數據挖掘專家、PDM（產品數據管理）建模人員、ETL開發人員和應用開發人員。同時需要熟悉業務的人員以及熟悉數據倉庫PDM的人員予以支持。

本博客為學習交流用，凡未注明引用的均為本人作品，轉載請注明出處，如有版權問題請及時通知。由于博客時間倉促，錯誤之處敬請諒解，有任何意見可給我留言，愿共同學習進步。

posted on 2008-04-17 10:16 Jack.Wang 閱讀(1190) 評論(0) 編輯收藏

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理

走在架構師的大道上 Jack.Wang's home

公告

留言簿(26)

我參與的團隊

隨筆分類(232)

隨筆檔案(190)

我的鄰居們

積分與排名

最新評論

閱讀排行榜

評論排行榜