無為

          無為則可為,無為則至深!

            BlogJava :: 首頁 :: 聯系 :: 聚合  :: 管理
            190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks

          聚類分析是數據挖掘中的一個很活躍的研究領域,并提出了許多聚類算法。
          這些算法可以被分為劃分方法、層次方法、基于密度方法、基于網格方法和
          基于模型方法。
          1 劃分方法(PAM:PArtitioning method) 首先創建k個劃分,k為要創建的劃分個數;然后利用一個循環
          定位技術通過將對象從一個劃分移到另一個劃分來幫助改善劃分質量。典型的劃分方法包括:
          k-means,k-medoids,CLARA(Clustering LARge Application),
          CLARANS(Clustering Large Application based upon RANdomized Search).
          FCM,
          EM(Expectation Maximization):不將對象明顯地分到么個簇,而是根據表示隸書可能性的權來分配對象.

          2 層次方法(hierarchical method) 創建一個層次以分解給定的數據集。該方法可以分為自上
          而下(分解)和自下而上(合并)兩種操作方式。為彌補分解與合并的不足,層次合
          并經常要與其它聚類方法相結合,如循環定位。典型的這類方法包括:
          第一個是;BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) 方法,它首先利用樹的結構對對象集進行

          劃分;然后再利
          用其它聚類方法對這些聚類進行優化。
          第二個是CURE(Clustering Using REprisentatives) 方法,它利用固定數目代表對象來表示相應聚類;然后對各聚類按照指定
          量(向聚類中心)進行收縮。
          第三個是ROCK方法,它利用聚類間的連接進行聚類合并。
          最后一個CHEMALOEN,它則是在層次聚類時構造動態模型。

          3 基于密度方法,根據密度完成對象的聚類。它根據對象周圍的密度(如
          DBSCAN)不斷增長聚類。典型的基于密度方法包括:GDBSCAN,DBCLASD,DENCLUE(DENsity-based CLUstEring)
          DBSCAN(Densit-based Spatial Clustering of Application with Noise):該算法通過不斷生長足夠高密
          度區域來進行聚類;它能從含有噪聲的空間數據庫中發現任意形狀的聚類。此方法將一個聚類定義
          為一組“密度連接”的點集。
          OPTICS(Ordering Points To Identify the Clustering Structure):并不明確產生一
          個聚類,而是為自動交互的聚類分析計算出一個增強聚類順序。。

          4 基于網格方法,首先將對象空間劃分為有限個單元以構成網格結構;然后利
          用網格結構完成聚類。
          STING(STatistical INformation Grid) 就是一個利用網格單元保存的統計信息進行基
          于網格聚類的方法。
          CLIQUE(Clustering In QUEst)和Wave-Cluster 則是一個將基于網格與基于密度相結合的方
          法。

          5 基于模型方法,它假設每個聚類的模型并發現適合相應模型的數據。典型的
          基于模型方法包括:

          統計方法COBWEB:是一個常用的且簡單的增量式概念聚類方法。它的輸入對象是采
          用符號量(屬性-值)對來加以描述的。采用分類樹的形式來創建
          一個層次聚類。
          CLASSIT是COBWEB的另一個版本.。它可以對連續取值屬性進行增量式聚
          類。它為每個結點中的每個屬性保存相應的連續正態分布(均值與方差);并利
          用一個改進的分類能力描述方法,即不象COBWEB那樣計算離散屬性(取值)
          和而是對連續屬性求積分。但是CLASSIT方法也存在與COBWEB類似的問題。
          因此它們都不適合對大數據庫進行聚類處理.
          AutoClass:它采用貝葉斯統計分析來估算結果簇的數目.

          神經網絡方法SOM,LVQ(Learning Vector Quantization)



          凡是有該標志的文章,都是該blog博主Caoer(草兒)原創,凡是索引、收藏
          、轉載請注明來處和原文作者。非常感謝。

          posted on 2006-06-24 13:51 草兒 閱讀(734) 評論(0)  編輯  收藏 所屬分類: BI and DM
          主站蜘蛛池模板: 邳州市| 胶南市| 宁夏| 克山县| 炎陵县| 普宁市| 吉林省| 白朗县| 禹州市| 咸宁市| 高雄市| 万山特区| 崇仁县| 华宁县| 若羌县| 南昌市| 冷水江市| 甘肃省| 客服| 二手房| 都兰县| 天气| 曲松县| 凤庆县| 安化县| 衡阳市| 余江县| 东丰县| 时尚| 隆昌县| 上蔡县| 海兴县| 瑞丽市| 新昌县| 基隆市| 韶关市| 库尔勒市| 东宁县| 赫章县| 关岭| 南通市|