無為

          無為則可為,無為則至深!

            BlogJava :: 首頁 :: 聯系 :: 聚合  :: 管理
            190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks

          一、數據挖掘分類技術

          數據挖掘是機器學習、數據庫和統計學三者相結合的產物。數據挖掘首先要確定挖掘的任務或目的,確定了挖掘任務后,就要決定使用什么樣的挖掘算法,選擇了算法后就可以實施數據挖掘操作,獲取有用的模式。

          分類作為數據挖掘中一項非常重要的任務,目前在商業上應用最多(比如分析型CRM里面的客戶分類模型,客戶流失模型,客戶盈利等等,其本質屬于分類問題)。分類的目的是學會一個分類函數或分類模型(也常常稱作分類器),該模型能把數據庫中的數據項映射到給定類別中的某一個,從而可以用于預測。目前,分類方法的研究成果較多,判別方法的好壞可以從三個方面進行:

          1)預測準確度(對非樣本數據的判別準確度);

          2)計算復雜度(方法實現時對時間和空間的復雜度);

          3)模式的簡潔度(在同樣效果情況下,希望決策樹小或規則少)。

          近年來,對數據挖掘中分類算法的研究是該領域中一個熱點,對不同分類方法都有許多對比研究成果。沒有一個分類方法在對所有數據集上進行分類學習均是最優的。目前在數據挖掘軟件中運用的最早也是最多的分類算法是神經網絡,它具有對非線性數據快速建模的能力,通過對訓練集的反復學習來調節自身的網絡結構和連接權值,并對未知的數據進行分類和預測。但是由于神經網絡是基于經驗最小化原理,它有如下幾個固有的缺陷:

          1)結構復雜(神經元的結構,還有輸入層,隱含層,輸出層組合起來的復雜結構)

          2)容易陷入局部極小

          3) 容易出現過學習問題,也就是訓練出來的模型推廣能力不強

          為了克服傳統神經網絡的以上缺點, Vapnik 提出了一種新的基于統計學習理論的機器學習算法―支持向量機,正式奠定了 SVM 的理論基礎,由于 SVM 扎實的理論基礎,其目前已經成為繼神經網絡之后的的機器學習領域研究熱點之一。

          ?

          二、支持向量機核心思想

          支持向量機實現是通過某種事先選擇的非線性映射(核函數)將輸入向量映射到一個高維特征空間,在這個空間中構造最優分類超平面。我們使用使用SVM進行數據集分類工作的過程首先是通過預先選定的一些非線性映射將輸入空間映射到高維特征空間(如下圖)

          ? ?

          ? 使得在高維屬性空間中有可能對訓練數據實現超平面的分割,避免了在原輸入空間中進行非線性曲面分割計算。SVM數據集形成的分類函數具有這樣的性質:它是一組以支持向量為參數的非線性函數的線性組合,因此分類函數的表達式僅和支持向量的數量有關,而獨立于空間的維度。在處理高維輸入空間的分類時,這種方法尤其有效。其工作原理如下圖

          ?

          ?

          三、支持向量機在數據挖掘中的應用

          鑒于支持向量機扎實的理論基礎,并且和傳統的學習算法想比較(比如人工神經網絡), SVM 通過提高數據的維度把非線性分類問題轉換成線性分類問題,較好解決了傳統算法中訓練集誤差最小而測試集誤差仍較大的問題,算法的效率和精度都比較高。所以近年來該方法成為構造數據挖掘分類器的一項新型技術,在分類和回歸模型中得到了很好的應用。但由于支持向量機出現的時間在 90 年代中期,人們對支持向量機的應用主要集中在模式識別方面,對于將支持向量機應用于數據挖掘的研究剛處于起步階段。

          目前,用 SVM 構造數據挖掘中的分類器來處理海量數據主要面臨以下兩個困難:

          ?

          (1)SVM 算法對大規模訓練樣本難以實施

          由于 SVM 是借助二次規劃來求解支持向量,而求解二次規劃將涉及 m 階矩陣的計算( m 為樣本的個數),當 m 數目很大時該矩陣的存儲和計算將耗費大量的機器內存和運算時間。

          針對以上問題的主要改進有有 J.Platt SMO 算法、 T.Joachims SVM C.J.C.Burges 等的 PCGC 、張學工的 CSVM 以及 O.L.Mangasarian 等的 SOR 算法

          (2) SVM 解決多分類問題存在困難

          經典的支持向量機算法只給出了二類分類的算法,而在數據挖掘的實際應用中,一般要解決多類的分類問題。可以通過多個二類支持向量機的組合來解決。主要有一對多組合模式、一對一組合模式和 SVM 決策樹;再就是通過構造多個分類器的組合來解決。主要原理是克服 SVM 固有的缺點,結合其他算法的優勢,解決多類問題的分類精度。如:與粗集理論結合,形成一種優勢互補的多類問題的組合分類器

          ?

          ?

          四、考慮一點商業智能中應用

          支持向量機是基于統計學習理論的新一代學習機器,具有很多吸引人的特點,它在函數表達能力、推廣能力和學習效率上都要優于傳統的人工神經網絡,在實際應用中也解決了許多問題,但由于 SVM 的出現比較晚,還處于發展階段,尤其是其算法實現方面存在著效率低下的問題,這也是限制 SVM 很好地應用于數據挖掘中的一個瓶頸。可以考慮對傳統支持向量機進行擴展,實現多分類支持向量機。可以考慮運用于現在的客戶智能系統當中,現有客戶智能系統采用的分類技術都是傳統的數據挖掘技術:

          比如神經網絡,決策樹,回歸分析等等。根據最后的圖,大家可以看到現在的分析型 CRM 的整個功能和技術架構,如果把這種新興的數據挖掘技術 - 支持向量機,運用于商業智能,相信是種不錯的嘗試。

          ?



          凡是有該標志的文章,都是該blog博主Caoer(草兒)原創,凡是索引、收藏
          、轉載請注明來處和原文作者。非常感謝。

          posted on 2006-05-25 21:44 草兒 閱讀(688) 評論(0)  編輯  收藏 所屬分類: BI and DM
          主站蜘蛛池模板: 云梦县| 遂昌县| 太仆寺旗| 侯马市| 新余市| 滦南县| 拉孜县| 垦利县| 同心县| 上犹县| 蒲江县| 沽源县| 博爱县| 达日县| 临沂市| 清新县| 喀什市| 嘉兴市| 泸溪县| 靖西县| 澄迈县| 西乡县| 綦江县| 洛浦县| 和田市| 梁平县| 三门峡市| 剑阁县| 凤台县| 科尔| 隆德县| 修武县| 昌吉市| 连平县| 开原市| 昭平县| 泾源县| 辽阳县| 北流市| 旬邑县| 应用必备|