專注應用,關注發展,開拓創新

          <-------------------------------------------------------------------& 珍惜生命 . 善用時間 . 把握未來 . 創造價值。

          BlogJava 首頁 新隨筆 聯系 聚合 管理
            11 Posts :: 17 Stories :: 10 Comments :: 0 Trackbacks
          6.1 設計數據挖掘模型
          6.1.1 數據挖掘方法論
          6.1.2 構造和使用數據挖掘模型
          6.2 統計類數據挖掘
          6.2.1 統計分析類數據挖掘技術
          6.2.2 統計分析工具
          6.2.3 統計分析工具應用
          6.3 知識類數據挖掘
          6.3.1 知識發現系統的一般結構
          6.3.2 知識發現技術及其運用
          6.3.3 知識發現工具
          6.4 MDX語言
          6.1 設計數據挖掘模型
          數據挖掘的基本機制是數據挖掘模型,這是一個抽象的對象,該模型以一系列結構行集 存儲數據挖掘信息,并可使用各種工具輕松訪問數據.構造和使用數據挖掘模型首先必必須 創建數據挖掘模型,并可以使用數據挖掘模型測覽器以圖形格式顯示數據挖掘模型的內容.
          6.1.1 數據挖掘方法論
          1.數據取樣(Sample)
          2.數據特征探索,分析和預處理(Explore)
          3.問題明確化,數據調整和技術選擇(Modify)
          4.模型的研發及知識的發現(Model)
          5.模型和知識的綜合解釋和評價(Assess)
          6.1.2 構造和使用數據挖掘模型
          1.創建數據挖掘模型
          創建新的數據挖掘模型包括確定模型類型,構建事例集將要使用的模型并選擇模型構造 新數據挖掘模型所用的數據挖掘技術.
          根據要處理的事例集數據的類型,可以使用兩種類型的數據挖掘模型:關系數據挖掘模 型和OLAP數據模型.前者設計為處理傳統的關系數據庫表,而后者則設計為處理以多維 數據集形式保存的OLAP數據.
          2.編輯數據挖掘模型
          一般可以通過編輯器來編輯數據挖掘模型.數據挖掘模型的進程取決于挖掘模型的類 型.
          (1)通過編輯器編輯關系數據挖掘模型
          可以使用關系挖掘模型編輯器編輯關系數據挖掘模型的結構,該編輯器也可用來處理數 據挖掘模型和查看結果內容,允許更改數據挖掘模型的基本屬性(如數據挖掘算法),顯示 數據挖掘模型列(包括鍵列,輸入列和可預測列).
          關系挖掘模型編輯器還可以顯示構造事例集的表結構,顯示事例和支持表.對于已培訓 的關系挖掘模型,可以使用數據挖掘模型瀏覽器,以圖形形式顯示數據挖掘模型的內容.
          (2)通過編輯器編輯OLAP數據挖掘模型
          可以使用OLAP挖掘模型編輯器編輯OLAP數據挖掘模型的結構.而且可處理數據挖 掘模型并顯示結果內容,更改數據挖掘模型的基本屬性(如數據挖掘算法)及組成數據挖掘 模型事例集的維度,級別和度量值的屬性.
          如果OLAP數據挖掘模型已經過培訓,則該編輯器還可以使用數據挖掘模型瀏覽器以 圖形形式顯示數據挖掘模型的內容.
          3.培訓數據挖掘模型
          為提供預測性的結果,數據挖掘模型首先必須在稱為"培訓"的進程中采用已知數據. 在該進程中,數據被插入到未經過培訓的數據挖掘模型中.這個進程并不將培訓數據保存到 數據挖掘模型中,而是通過數據挖掘模型分析培訓數據,找出以后可使用的規則和模式,以 確定預測列的圖值并將統計信息作為數據挖掘模型內容保存.

          4.查看數據挖掘模型
          查看已培訓數據挖掘模型的最簡單方法是使用數據挖掘模型瀏覽器和相關性網絡瀏覽 器,這些圖形化工具以易于理解的圖形界面顯示數據挖掘模型的復雜內容(如決策樹),并 圖形化數據挖掘模型的內容.

          圖形化是指以易十理解的可視化格式顯示復雜數據的過程,但在數據挖掘中實現卻非常 困難.數據挖掘模型瀏覽器可以簡化數據挖掘模型內容的圖形化過程,而相關性網絡瀏覽器 則可以使決策樹數據挖掘模型中復雜關系的圖形化變得易于理解.
          5.對數據挖掘模型的其他操作
          也可以為數據挖掘模型分配安全角色,以將對該模型及其預測能力的訪問權限限制為特 定用戶和組,當數據挖掘模型鏈接到相應的數據庫時,將使用數據庫角色決定是否允許訪問 鏈接到數據庫中的數據挖掘模型,這與在多維數據集中使用數據庫角色類似.
          6.2 統計類數據挖掘
          統計技術是一個有著百余年歷史,并有著廣泛應用的技術.目前所使用的一些經典數據挖掘技術(如CART和CHAID等)都來自統計技術.在數據挖掘中的概率,獨立性,偶然 性和過適應性等概念也都來源于統計技術.
          6.2.1 統計分析類數據挖掘技術
          統計類數據挖掘技術是數據挖掘技術中較為成熟的一種,主要包括數據的聚集與度量技 術,各種回歸技術,聚類挖掘技術和最近鄰域挖掘技術等.
          1.數據的聚集與度量
          2.各種回歸技術
          回歸又包括線性回歸和非線性回歸.
          3.聚類挖掘技術
          (1)聚類分析原理
          (2)分層聚類
          (3)劃分聚類
          (4)密度聚類
          (5)網格聚類
          (6)模型聚類
          4.最近鄰域數據挖掘
          最近鄰域數據挖掘工具是數據挖掘技術中最容易理解的技術之一,因為它用與人們思維 方式相似的方法進行分析——檢測最接近的匹配樣本.
          用最近鄰域方法進行預測的基本概念是相互之間"接近"的對象具有相似的預測值.如 果知道其中一個對象的預測值后,可以預測其最近的鄰域對象.
          6.2.2 統計分析工具
          數據挖掘中的統計分析上具是一種處于知識發現工具和信息處理工具之間的數據挖掘工具.
          1.統計類數據挖掘工具的功能
          (1)可視化功能
          (2)探索功能
          (3)統計功能
          (4)數據管理功能
          (5)顯示功能
          (6)挖掘結果描述功能
          (7)開發工具
          (8)可接受的響應時間
          2.統計分析類工具的用途
          統計類數據挖掘工具可以在時序數據和序列數據的挖掘中發揮重要作用,主要是趨勢分 析,相似性搜索,與時間有關數據的序列模式挖掘和周期性模式的挖掘.
          6.2.3 統計分析工具應用
          1.統計分析類工具應用中的問題
          (1)空缺值處理
          A.忽略元組
          B.人工填寫空缺值.
          C.使用一個全局變量填充空缺值.
          (2)噪聲數據處理
          噪聲是一個測量變量中的隨機錯誤或偏差.給定一個數值屬性的噪聲,可以將其平滑掉 或剔除掉噪聲.
          A.分箱
          B.聚類
          C.計算機和人工檢查結合
          D.回歸
          (3)不一致數據處理
          對于有些事務,所記錄的數據可能存在不一致性.數據不一致可以使用其他材料人工加 以更正,例如數據輸入時的錯誤可以便用紙上的記錄加以更正.
          2.統計分析遵循的基本原則
          統計分析的科學依據在于事物發展的規律性.具體來說,應該遵循以下3個基本原則.
          (1)與定性分析相結合原則
          (2)連貫和類推原則
          (3)統計資料的可靠性和分析公式的適應性原則
          3.統計分析的步驟
          (1)確定分析目標
          (2)收集,審核及分析統計資料
          (3)確定分析模型,選擇分析方法
          (4)進行分析和誤差分析
          4.統計類數據挖掘的性能問題
          統計方法的優點是精確,易理解并臣己經被廣泛應用.統計分析是一種有力的技術,用它可以了解客戶,市場,產品和其他關鍵商業參數.但也存在一些問題.
          (1)它是勞動力密集的,需要相當一部分統計分析員和商業分析員的分析勞動.
          (2)成功的可能性很大程度上依賴于商業分析員解決問題的能力,不能自行查找隱藏在 數據背后的知識.
          (3)許多情況下,商業分析人員并不知道需要查找什么(或無法選擇離散的變量分析), 此時,統計分析工具將無法工作.
          (4)在進行市場細分時,很難集成和分析非數字化數據,只適合數字化數據處理.
          (5)一般來說,統計類數據挖掘工具的應用成本與其可接受的響應時間不好統一.
          6.3 知識類數據挖掘
          知識類數據挖掘技術就是一種依靠數據驅動的,從數據倉庫的數據中挖掘業務模式的知識發現技術.
          6.3.1 知識發現系統的一般結構
          知識發現系統的結構由知識發現系統管理器,知識庫,商業分析員,數據倉庫的數據接口,數據選擇,知識發現引擎,知識發現評價,知識發現描述等部分組成.見圖6-1.
          1.知識發現系統管理器
          知識發現系統管理器控制并管理整個知識發現過程.商業分析人員的輸入和知識庫中的信息用于驅動以下三個過程:
          (1)數據選擇過程.
          (2)抽取算法的選擇及使用過程.
          (3)發現的評價過程.
          2.知識庫和商業分析員
          知識庫包含源于各方面的知識.商件分析員將元數據輸入數據倉庫,描述數據倉庫的數 據結構,商業分析員還要在知識庫中輸入其他相關的數據知識(如應當注意的關鍵數據字段, 分析中用于產生數據需求的商業規則,任何數據層次等).其目的是按一種有效的方式指導 對關注性信息的發現.
          3.數據倉庫的數據庫接口
          知識發現系統利用數據庫的查詢機制,從數據倉庫中抽取數據.對于關系數據庫,可使用SQL查詢語言.知識庫中的數據倉庫元數據指導數據庫接口正確組織數據結構,并正確組織數據結構在數據倉庫中存儲的方式.
          為了提高效率,知識發現系統的數據庫接口可以直接與數據倉庫通信.
          4.數據選擇
          數據選擇構件可以確定從數據倉庫中需要抽取的數據及數據結構.知識庫指導數據選擇構件,選擇需要抽取的數據以及抽取方式.如果只需示例數據,數據選擇構件必須有能力選擇并抽取恰當的隨機事例.此外,它還要選擇算法所需要的數據類型,同時將數據類型輸入算法.
          5.知識發現引擎
          知識發現引擎將知識庫中的抽取算法提供數據選擇構件抽取的數據,其目的是抽取數據元素間的模式和關系.存儲在知識庫中的經驗對發現抽取有重要的作用.
          許多數據挖掘算法可與知識發現系統結合,作為知識發現引擎,如數據依賴,分類規則,聚類,概括數據,偏差檢查,歸納和模糊推理等.
          6.發現評價
          商業分析員需要尋找關注性的數據模式,以便了解顧客,產品,市場等等.數據倉庫潛 在地具有宿主模式.評價構件或過濾構件有助于商業分析員篩選模式,選出關注性的信息.
          用于分析關注性模式的技術包括統計的重點,覆蓋級別的置信度因子,以及可視化分析.
          7.發現描述
          發現描述構件提供兩種必須的功能.一種是發現評價輔助商業分析員,在知識庫中保存 關注性的發現結果,以備引用和使用.另一種是保持發現與商業經理(或商業總經理)的通 信.其目的是利用知識發現來理解業務模式,將此理解轉化成可執行的建議.知識發現系統 中的描述技術包括可視化導航和瀏覽,自然語言文本報告以及圖表和圖形.
          6.3.2 知識發現技術及其運用
          前面敘述過,數據挖掘中的知識發現技術按照其不同的技術特點,可以分成規則型知識 挖掘技術,神經網絡型知識挖掘技術,遺傳算法型知識挖掘技術和粗糙集型數據挖掘技術.這些不同類型的知識挖掘技術在數據挖掘中占有重要的地位.
          1.關聯規則應用
          關聯規則是知識挖掘中一種主要的挖掘技術,通過關聯規則在數據倉庫中的應用,可使人們了解各種事物發生的前因后果,使企業利用挖掘的各種商業規則在市場競爭中獲取優勢.
          通常,關聯規則用于值域的基數很高或有多個二值屬性列的數據庫.
          2.神經元網絡的應用
          人工種經網絡是—種有效的預測模型.其模型比較復雜,許多人都難以理解;但是在聚 類分析,奇異點分析,特征抽取中可以得到較大的應用,例如應用在信用卡欺詐,信貸風險, 客戶分類,盈利客戶特征分析商業模式的識別上.

          神經元網絡在使用時需要很長的圳練時間,因而對有足夠長訓練時間的應用更為合適. 此外,神經元網絡對噪聲數據具有較高的承受能力.
          3.遺傳算法的應用
          遺傳算法作為基于生物進化過程的組合優化方法,在數據挖掘中主要用于分類系統中, 并且經常與神經網絡等數據挖掘技術綜合應用.
          神經元網絡在客戶的分類中的應用是比較成功的.
          4.粗糙集理論的應用
          粗糙集在數據挖掘應用中,經常用于處理不確定問題,而且在處理過程中可以不需要關 于問題的先驗知識,可以自動找出問題的內在規律.因此,在模式識別,決策分析,知識發 現等方面得到較廣泛的應用.
          粗糙集在商業應用中也具有很大的應用范圍.
          6.3.3 知識發現工具
          1.知識發現工具系統結構
          (1)無耦合
          (2)松散耦合
          (3)半緊密耦合
          (4)緊密耦合
          2.知識發現工具運用中的問題
          (1)數據挖掘技術應用中的共性問題
          在應用數據挖掘技術時,所遇到的共性問題有:數據質量,數據可視化,極大數據庫, 性能與成本,分析人員的技能,數據噪聲和模式評價等問題.
          (2)數據挖掘技術應用中的個性問題
          A.規則歸納應用中的問題.
          B.神經網絡應用中的問題.
          神經網絡方法也有一些缺點.
          第一,神經網絡易于受訓練過度的影響.
          第二,神經網絡的訓練速度問題.
          C.遺傳算法應用中的問題.
          3.知識發現的價值
          (1)了解商業活動
          (2)發現商業異常
          (3)預測模型
          6.4 MDX語言
          MDX是一種語法,支持多維對象與數據的定義和操作.它在很多方面與SQL語法相似, 但并不是SQL語言的擴展.事實上,MDX所提供的一些功能也可由SQL提供,盡管不是 那么有效或直觀.
          1.基本MDX
          MDX查詢的創建者在編寫查詢前必須確定所請求數據集的結構,基本MDX查詢提供 如下功能:
          A.MDX查詢的基本語法信息.
          B.成員,元組和集合提供了對成員,元組和集合的簡要描述(包括概念性信息及語法); 軸線度和切片器維度描述軸維度和切片器維度及其在帶有SELECT和WHERE子句的MDX 查詢中的使用.
          C.建立多維數據集上下文提供對MDX查詢中的FROM子句的用途的描述.

          2.對SQL和MDX的比較
          盡管SQL和MDX具有相似的語法,但是MDX語法功能異常強大,且可以非常復雜.因為設計MDX的意圖就是提供一種查詢多維數據的簡單而有效的方法,所以它采用了一致且易于理解的方式使用戶明確二維查詢和多維查詢在概念上的區別.
          小結
          6.1 設計數據挖掘模型
          6.2 統計類數據挖掘
          6.3 知識類數據挖掘
          6.4 MDX語言
          posted on 2006-05-05 16:10 吳名居 閱讀(520) 評論(0)  編輯  收藏 所屬分類: 數據挖掘-weka

          只有注冊用戶登錄后才能發表評論。


          網站導航:
           
          主站蜘蛛池模板: 阜康市| 三河市| 牡丹江市| 象州县| 鹤峰县| 太仆寺旗| 许昌市| 龙胜| 长海县| 合山市| 惠州市| 华坪县| 织金县| 榆中县| 浪卡子县| 连南| 大理市| 三门峡市| 乡城县| 西林县| 广元市| 漯河市| 霍林郭勒市| 通山县| 淮北市| 桃园市| 上林县| 乌拉特前旗| 稷山县| 遵义市| 桦甸市| 博湖县| 无棣县| 静海县| 襄城县| 惠州市| 石棉县| 玛曲县| 静宁县| 抚远县| 常熟市|