花花JAVA
          ____________花花之java寒舍
          posts - 10,comments - 4,trackbacks - 0
          數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn),可以根據(jù)它的工作過程分為:數(shù)據(jù)的抽取、數(shù)據(jù)的存儲(chǔ)和管理、數(shù)據(jù)的展現(xiàn)等關(guān)鍵技術(shù)。

          數(shù)據(jù)挖掘有6種分析方法:

                  · 分類 (Classification)
            · 估值(Estimation)
            · 預(yù)言(Prediction)
            · 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)
            · 聚集(Clustering)
            · 描述和可視化(Description and Visualization)
            · 復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
              *前3種屬于直接數(shù)據(jù)挖掘,后3種屬于間接數(shù)據(jù)挖掘

                  · 分類 (Classification) 
                          首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘分類的技術(shù),建立分類模型,對(duì)于沒有分類的數(shù)據(jù)進(jìn)行分類。
            例子:
            a. 信用卡申請(qǐng)者,分類為低、中、高風(fēng)險(xiǎn)
            b. 分配客戶到預(yù)先定義的客戶分片
            注意: 類的個(gè)數(shù)是確定的,預(yù)先定義好的 

                   
               · 估值(Estimation)
                          估值與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定數(shù)目的,估值的量是不確定的。
            例子:
            a. 根據(jù)購買模式,估計(jì)一個(gè)家庭的孩子個(gè)數(shù)
            b. 根據(jù)購買模式,估計(jì)一個(gè)家庭的收入
            c. 估計(jì)real estate的價(jià)值
            一般來說,估值可以作為分類的前一步工作。給定一些輸入數(shù)據(jù),通過估值,得到未知的連續(xù)變量的值,然后,根據(jù)預(yù)先設(shè)定的閾值,進(jìn)行分類。例如:銀行對(duì)家庭貸款業(yè)務(wù),運(yùn)用估值,給各個(gè)客戶記分(Score 0~1)。然后,根據(jù)閾值,將貸款級(jí)別分類。     
                                                     
               · 預(yù)言(Prediction) 
                          通常,預(yù)言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對(duì)未知變量的預(yù)言。從這種意義上說,預(yù)言其實(shí)沒有必要分為一個(gè)單獨(dú)的類。預(yù)言其目的是對(duì)未來未知變量的預(yù)測(cè),這種預(yù)測(cè)是需要時(shí)間來驗(yàn)證的,即必須經(jīng)過一定時(shí)間后,才知道預(yù)言準(zhǔn)確性是多少。
                          
               · 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules) 
                          決定哪些事情將一起發(fā)生。
            例子:
            a. 超市中客戶在購買A的同時(shí),經(jīng)常會(huì)購買B,即A => B(關(guān)聯(lián)規(guī)則)
            b. 客戶在購買A后,隔一段時(shí)間,會(huì)購買B (序列分析)
                          
               · 聚集(Clustering) 
                          聚集是對(duì)記錄分組,把相似的記錄在一個(gè)聚集里。聚集和分類的區(qū)別是聚集不依賴于預(yù)先定義好的類,不需要訓(xùn)練集。
            例子:
            a. 一些特定癥狀的聚集可能預(yù)示了一個(gè)特定的疾病
            b. 租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群
            聚集通常作為數(shù)據(jù)挖掘的第一步。例如,"哪一種類的促銷對(duì)客戶響應(yīng)最好?",對(duì)于這一 類問題,首先對(duì)整個(gè)客戶做聚集,將客戶分組在各自的聚集里,然后對(duì)每個(gè)不同的聚集,回答問題,可能效果更好。
                          
               · 描述和可視化(Description and Visualization) 
                          是對(duì)數(shù)據(jù)挖掘結(jié)果的表示方式。
                          
               · 復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
                          
          posted on 2009-02-05 14:18 花-花 閱讀(758) 評(píng)論(0)  編輯  收藏 所屬分類: 數(shù)據(jù)挖掘(Data Mining)

          只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。


          網(wǎng)站導(dǎo)航:
           
          主站蜘蛛池模板: 肇东市| 耿马| 辽宁省| 望都县| 察哈| 玉门市| 将乐县| 嵩明县| 石狮市| 新余市| 灌云县| 辰溪县| 察隅县| 卢氏县| 潢川县| 白玉县| 贵定县| 崇州市| 台北县| 合阳县| 南木林县| 卓尼县| 绥阳县| 虞城县| 突泉县| 新源县| 马尔康县| 松溪县| 永和县| 肃北| 玉山县| 彰武县| 广州市| 淮安市| 汉川市| 鄂温| 柳河县| 鄂托克旗| 潞西市| 台中市| 琼中|