?
選擇合適的元素。考慮不同的統(tǒng)計級別,選擇哪種細(xì)節(jié)程度。細(xì)節(jié)的顆粒越粗,那么算法的工作量就越小;細(xì)節(jié)的顆粒越細(xì),那么結(jié)果的可實施性就越好。關(guān)鍵:只有當(dāng)數(shù)據(jù)中的元素出現(xiàn)的次數(shù)大致相同是,關(guān)聯(lián)規(guī)則的效果才最好。虛擬元素不能太多!應(yīng)該注意數(shù)據(jù)的質(zhì)量。
產(chǎn)生規(guī)則。什么是規(guī)則?就是一個條件和一個結(jié)果的和:
If condition then result
。實際中有用的往往是結(jié)果中只有一個元素的情況。支持度、可信度和提高率(興趣度)。
凡是有該標(biāo)志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
、轉(zhuǎn)載請注明來處和原文作者。非常感謝。
關(guān)聯(lián)規(guī)則簡介:
關(guān)聯(lián)規(guī)則雖然來源于
POS 中,但是可以應(yīng)用于很多領(lǐng)域。只要一個客戶在同一個時間里買了多樣?xùn)|西,或者在一段時間了做了好幾樣事情就可能是一個潛在的應(yīng)用。例如:- 用信用卡購物,如汽車租金和旅館費,可以看他下一個要買的東西。
- 電話公司提供的多項服務(wù),以研究捆綁銷售的問題。
- 銀行提供的多項服務(wù),來分析客戶可能需要那些服務(wù)。
- 不尋常的多項保險申請可能是欺詐行為。
數(shù)據(jù)挖掘什么時候有用?三種規(guī)則:有用的、價值不高的、費解的。價值不高的規(guī)則往往是對一些商業(yè)領(lǐng)域內(nèi)的規(guī)則重現(xiàn)。費解的規(guī)則往往是數(shù)據(jù)中一些偶然的東西,從而也沒有什么采取行動的價值。
虛擬元素(
Virtual Items )是一個在事務(wù)中認(rèn)為加入的元素。用來對事務(wù)進(jìn)行一定的區(qū)別。加入虛擬元素后我們能做的事情:- 對比促銷時和平常銷售時的區(qū)別。
- 按照銷售的區(qū)域來看,按照銷售的方式來看。
- 比較城市和郊區(qū)的區(qū)別。
- 比較各個季節(jié)的不同。
數(shù)據(jù)挖掘的基本流程:
元組 |
出現(xiàn)頻率 |
A |
45% |
B |
42.5% |
C |
40% |
A和B |
25% |
A和C |
20% |
B和C |
15% |
A和B和C |
5% |
支持度:就是一個元組在整個數(shù)據(jù)庫中出現(xiàn)的概率。如上面的例子中
S(A)=0.45 。可信度:它是針對規(guī)則而言的。對于一般的規(guī)則,它的可信度
=p ( condition and result ) /p ( condition )。例如有如下規(guī)則: If B and C then A 。則它的可信度是: p ( B and C and A ) /p ( B and C ) =5%/15%=0.33 。提高率(或者叫興趣度):對于上面的一個規(guī)則,我們可以發(fā)現(xiàn),當(dāng)我們從從數(shù)據(jù)庫中直接取
A 的時候,概率是 45% ;可在我們的規(guī)則中,取到 A 的概率卻只有 33.3% 。顯然,這種情況是我們不愿意見到的,我們應(yīng)該略去這樣的一些規(guī)則。所以我們引入了興趣度的概念,具體的公式如下:興趣度 =p(condition and result)/p(condition)*p(result) 。當(dāng)興趣度大于 1 的時候,這條規(guī)則就是比較好的;當(dāng)興趣度小于 1 的時候,這條規(guī)則就是沒有很大意義的。興趣度越大,規(guī)則的實際意義就越好。- 克服實際應(yīng)用中數(shù)據(jù)量暴大的問題。當(dāng)數(shù)據(jù)量增大時,要考慮的元素組就增長的很快了。
分裂規(guī)則:例如:If A and not B then C。
用關(guān)聯(lián)規(guī)則的方法對序列規(guī)則的分析:
為了進(jìn)行序列模式的分析,事務(wù)數(shù)據(jù)要滿足額外的兩個條件:
- 一個時標(biāo)或者序列信息用以決定事務(wù)發(fā)生的順序。
- 標(biāo)識信息,用以區(qū)別不同的事務(wù)。
可以用于原因結(jié)果分析。
關(guān)聯(lián)規(guī)則的優(yōu)缺點:
優(yōu)點:
- 它可以產(chǎn)生清晰有用的結(jié)果。
- 它支持間接數(shù)據(jù)挖掘。
- 可以處理變長的數(shù)據(jù)。
- 它的計算的消耗量是可以預(yù)見的。
缺點:
- 當(dāng)問題變大時,計算量增長得厲害。
- 難以決定正確的數(shù)據(jù)。
- 容易忽略稀有的數(shù)據(jù)。
凡是有該標(biāo)志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
、轉(zhuǎn)載請注明來處和原文作者。非常感謝。