花花JAVA
          ____________花花之java寒舍
          posts - 10,comments - 4,trackbacks - 0
          數據挖掘技術實現,可以根據它的工作過程分為:數據的抽取、數據的存儲和管理、數據的展現等關鍵技術。

          數據挖掘有6種分析方法:

                  · 分類 (Classification)
            · 估值(Estimation)
            · 預言(Prediction)
            · 相關性分組或關聯(lián)規(guī)則(Affinity grouping or association rules)
            · 聚集(Clustering)
            · 描述和可視化(Description and Visualization)
            · 復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
              *前3種屬于直接數據挖掘,后3種屬于間接數據挖掘

                  · 分類 (Classification) 
                          首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分類模型,對于沒有分類的數據進行分類。
            例子:
            a. 信用卡申請者,分類為低、中、高風險
            b. 分配客戶到預先定義的客戶分片
            注意: 類的個數是確定的,預先定義好的 

                   
               · 估值(Estimation)
                          估值與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定數目的,估值的量是不確定的。
            例子:
            a. 根據購買模式,估計一個家庭的孩子個數
            b. 根據購買模式,估計一個家庭的收入
            c. 估計real estate的價值
            一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的連續(xù)變量的值,然后,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業(yè)務,運用估值,給各個客戶記分(Score 0~1)。然后,根據閾值,將貸款級別分類。     
                                                     
               · 言(Prediction) 
                          通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。預言其目的是對未來未知變量的預測,這種預測是需要時間來驗證的,即必須經過一定時間后,才知道預言準確性是多少。
                          
               · 相關性分組或關聯(lián)規(guī)則(Affinity grouping or association rules) 
                          決定哪些事情將一起發(fā)生。
            例子:
            a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯(lián)規(guī)則)
            b. 客戶在購買A后,隔一段時間,會購買B (序列分析)
                          
               · 聚集(Clustering) 
                          聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區(qū)別是聚集不依賴于預先定義好的類,不需要訓練集。
            例子:
            a. 一些特定癥狀的聚集可能預示了一個特定的疾病
            b. 租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群
            聚集通常作為數據挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對于這一 類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然后對每個不同的聚集,回答問題,可能效果更好。
                          
               · 描述和可視化(Description and Visualization) 
                          是對數據挖掘結果的表示方式。
                          
               · 復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
                          
          posted on 2009-02-05 14:18 花-花 閱讀(752) 評論(0)  編輯  收藏 所屬分類: 數據挖掘(Data Mining)

          只有注冊用戶登錄后才能發(fā)表評論。


          網站導航:
           
          主站蜘蛛池模板: 济宁市| 翼城县| 多伦县| 文山县| 张家川| 澄江县| 法库县| 芷江| 新化县| 昆山市| 大关县| 塔城市| 炉霍县| 于田县| 永丰县| 即墨市| 开平市| 思茅市| 定安县| 苍溪县| 改则县| 页游| 迁西县| 河东区| 宿迁市| 和龙市| 南昌市| 海宁市| 共和县| 宜宾市| 兴安盟| 阳朔县| 涟水县| 万州区| 盘山县| 白沙| 郯城县| 夏河县| 阜阳市| 阳山县| 伊金霍洛旗|