學海拾遺

          生活、技術、思想無處不在學習
          posts - 52, comments - 23, trackbacks - 0, articles - 3
            BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理

          數據挖掘相關

          Posted on 2007-06-27 08:43 tanzek 閱讀(327) 評論(0)  編輯  收藏

          什么是規則?就是一個條件和一個結果的和:If condition then result。實際中有用的往往是結果中只有一個元素的情況。

          關聯規則(association rule)挖掘技術用于發現數據庫中屬性之間的有趣聯系。和傳統的產生式規則不同,關聯規則可以有一個或多個輸出,同時一個規則的輸出屬性可以是另一個規則的輸入屬性。關聯規則分析有時也叫購物籃分析,是因為它可以找尋出潛在的令人感興趣的所有的產品組合。由此,有限數目的屬性可能生成上百條規則。

          關聯規則的置信度、支持度興趣度

          元組

          出現頻率

          A

          45%

          B

          42.5%

          C

          40%

          A和B

          25%

          A和C

          20%

          B和C

          15%

          A和B和C

          5%


          支持度:就是一個元組在整個數據庫中出現的概率。如上面的例子中S(A)=0.45。

          置信度:它是針對規則而言的。對于一般的規則,它的可信度=p(condition and result)/p(condition)。例如有如下規則:If B and C then A。則它的置信度是:p(B and C and A)/p(B and C)=5%/15%=0.33。

          提高率(或者叫興趣度):對于上面的一個規則,我們可以發現,當我們從從數據庫中直接取A的時候,概率是45%;可在我們的規則中,取到A的概率卻只有33.3%。顯然,這種情況是我們不愿意見到的,我們應該略去這樣的一些規則。所以我們引入了興趣度的概念,具體的公式如下:興趣度=p(condition and result)/p(condition)*p(result)。當興趣度大于1的時候,這條規則就是比較好的;當興趣度小于1的時候,這條規則就是沒有很大意義的。興趣度越大,規則的實際意義就越好。

          克服實際應用中數據量暴大的問題。當數據量增大時,要考慮的元素組就增長的很快了。

          關聯規則的優缺點:
          優點:
          ·它可以產生清晰有用的結果。
          ·它支持間接數據挖掘。
          ·可以處理變長的數據。
          ·它的計算的消耗量是可以預見的。

          缺點:
          ·當問題變大時,計算量增長得厲害。
          ·難以決定正確的數據。
          ·容易忽略稀有的數據。


          只有注冊用戶登錄后才能發表評論。


          網站導航:
           
          主站蜘蛛池模板: 四子王旗| 定日县| 栾川县| 墨脱县| 延庆县| 淮南市| 通榆县| 旬阳县| 安义县| 扶绥县| 晋中市| 高密市| 漠河县| 安化县| 屯昌县| 德庆县| 鄄城县| 佛冈县| 衡东县| 临沧市| 沙坪坝区| 星子县| 任丘市| 莫力| 仪陇县| 化州市| 驻马店市| 舟山市| 巴林右旗| 射阳县| 扎兰屯市| 合川市| 嵊泗县| 乃东县| 门头沟区| 莱州市| 广丰县| 通许县| 林西县| 临桂县| 当阳市|