無(wú)為

          無(wú)為則可為,無(wú)為則至深!

            BlogJava :: 首頁(yè) :: 聯(lián)系 :: 聚合  :: 管理
            190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks
          ?

          關(guān)聯(lián)規(guī)則簡(jiǎn)介:

          關(guān)聯(lián)規(guī)則雖然來(lái)源于

          POS 中,但是可以應(yīng)用于很多領(lǐng)域。只要一個(gè)客戶在同一個(gè)時(shí)間里買(mǎi)了多樣?xùn)|西,或者在一段時(shí)間了做了好幾樣事情就可能是一個(gè)潛在的應(yīng)用。例如:

          • 用信用卡購(gòu)物,如汽車(chē)租金和旅館費(fèi),可以看他下一個(gè)要買(mǎi)的東西。

          • 電話公司提供的多項(xiàng)服務(wù),以研究捆綁銷(xiāo)售的問(wèn)題。

          • 銀行提供的多項(xiàng)服務(wù),來(lái)分析客戶可能需要那些服務(wù)。

          • 不尋常的多項(xiàng)保險(xiǎn)申請(qǐng)可能是欺詐行為。

          數(shù)據(jù)挖掘什么時(shí)候有用?三種規(guī)則:有用的、價(jià)值不高的、費(fèi)解的。價(jià)值不高的規(guī)則往往是對(duì)一些商業(yè)領(lǐng)域內(nèi)的規(guī)則重現(xiàn)。費(fèi)解的規(guī)則往往是數(shù)據(jù)中一些偶然的東西,從而也沒(méi)有什么采取行動(dòng)的價(jià)值。

          虛擬元素(

          Virtual Items )是一個(gè)在事務(wù)中認(rèn)為加入的元素。用來(lái)對(duì)事務(wù)進(jìn)行一定的區(qū)別。加入虛擬元素后我們能做的事情:

          • 對(duì)比促銷(xiāo)時(shí)和平常銷(xiāo)售時(shí)的區(qū)別。

          • 按照銷(xiāo)售的區(qū)域來(lái)看,按照銷(xiāo)售的方式來(lái)看。

          • 比較城市和郊區(qū)的區(qū)別。

          • 比較各個(gè)季節(jié)的不同。

          數(shù)據(jù)挖掘的基本流程:

        1. 選擇合適的元素??紤]不同的統(tǒng)計(jì)級(jí)別,選擇哪種細(xì)節(jié)程度。細(xì)節(jié)的顆粒越粗,那么算法的工作量就越?。患?xì)節(jié)的顆粒越細(xì),那么結(jié)果的可實(shí)施性就越好。關(guān)鍵:只有當(dāng)數(shù)據(jù)中的元素出現(xiàn)的次數(shù)大致相同是,關(guān)聯(lián)規(guī)則的效果才最好。虛擬元素不能太多!應(yīng)該注意數(shù)據(jù)的質(zhì)量。

        2. 產(chǎn)生規(guī)則。什么是規(guī)則?就是一個(gè)條件和一個(gè)結(jié)果的和:
        3. If condition then result 。實(shí)際中有用的往往是結(jié)果中只有一個(gè)元素的情況。支持度、可信度和提高率(興趣度)。

          元組

          出現(xiàn)頻率

          A

          45%

          B

          42.5%

          C

          40%

          AB

          25%

          AC

          20%

          BC

          15%

          ABC

          5%

          支持度:就是一個(gè)元組在整個(gè)數(shù)據(jù)庫(kù)中出現(xiàn)的概率。如上面的例子中

          S(A)=0.45

          可信度:它是針對(duì)規(guī)則而言的。對(duì)于一般的規(guī)則,它的可信度

          =p condition and result /p condition )。例如有如下規(guī)則: If B and C then A 。則它的可信度是: p B and C and A /p B and C =5%/15%=0.33 。

          提高率(或者叫興趣度):對(duì)于上面的一個(gè)規(guī)則,我們可以發(fā)現(xiàn),當(dāng)我們從從數(shù)據(jù)庫(kù)中直接取

          A 的時(shí)候,概率是 45% ;可在我們的規(guī)則中,取到 A 的概率卻只有 33.3% 。顯然,這種情況是我們不愿意見(jiàn)到的,我們應(yīng)該略去這樣的一些規(guī)則。所以我們引入了興趣度的概念,具體的公式如下:興趣度 =p(condition and result)/p(condition)*p(result) 。當(dāng)興趣度大于 1 的時(shí)候,這條規(guī)則就是比較好的;當(dāng)興趣度小于 1 的時(shí)候,這條規(guī)則就是沒(méi)有很大意義的。興趣度越大,規(guī)則的實(shí)際意義就越好。

          • 克服實(shí)際應(yīng)用中數(shù)據(jù)量暴大的問(wèn)題。當(dāng)數(shù)據(jù)量增大時(shí),要考慮的元素組就增長(zhǎng)的很快了。

          分裂規(guī)則:例如:If A and not B then C。

          用關(guān)聯(lián)規(guī)則的方法對(duì)序列規(guī)則的分析:

          為了進(jìn)行序列模式的分析,事務(wù)數(shù)據(jù)要滿足額外的兩個(gè)條件:

          • 一個(gè)時(shí)標(biāo)或者序列信息用以決定事務(wù)發(fā)生的順序。

          • 標(biāo)識(shí)信息,用以區(qū)別不同的事務(wù)。

          可以用于原因結(jié)果分析。

           

          關(guān)聯(lián)規(guī)則的優(yōu)缺點(diǎn):

          優(yōu)點(diǎn):

          • 它可以產(chǎn)生清晰有用的結(jié)果。

          • 它支持間接數(shù)據(jù)挖掘。

          • 可以處理變長(zhǎng)的數(shù)據(jù)。

          • 它的計(jì)算的消耗量是可以預(yù)見(jiàn)的。

          缺點(diǎn):

          • 當(dāng)問(wèn)題變大時(shí),計(jì)算量增長(zhǎng)得厲害。

          • 難以決定正確的數(shù)據(jù)。

          • 容易忽略稀有的數(shù)據(jù)。



          凡是有該標(biāo)志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
          、轉(zhuǎn)載請(qǐng)注明來(lái)處和原文作者。非常感謝。

          posted on 2006-06-10 14:05 草兒 閱讀(254) 評(píng)論(0)  編輯  收藏 所屬分類: BI and DM
          主站蜘蛛池模板: 九寨沟县| 屯留县| 和静县| 兴义市| 盐池县| 综艺| 团风县| 梨树县| 平顺县| 嘉定区| 英吉沙县| 双牌县| 龙胜| 汉川市| 苍山县| 德令哈市| 郸城县| 万宁市| 什邡市| 清河县| 清水河县| 武城县| 调兵山市| 深泽县| 静宁县| 玉屏| 和顺县| 克什克腾旗| 南阳市| 三明市| 曲沃县| 城固县| 丹江口市| 修武县| 夏河县| 集安市| 遂平县| 申扎县| 正定县| 镇江市| 云和县|