無為

          無為則可為,無為則至深!

            BlogJava :: 首頁 :: 聯(lián)系 :: 聚合  :: 管理
            190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks

          聚類分析是數(shù)據(jù)挖掘中的一個(gè)很活躍的研究領(lǐng)域,并提出了許多聚類算法。
          這些算法可以被分為劃分方法、層次方法、基于密度方法、基于網(wǎng)格方法和
          基于模型方法。
          1 劃分方法(PAM:PArtitioning method) 首先創(chuàng)建k個(gè)劃分,k為要?jiǎng)?chuàng)建的劃分個(gè)數(shù);然后利用一個(gè)循環(huán)
          定位技術(shù)通過將對(duì)象從一個(gè)劃分移到另一個(gè)劃分來幫助改善劃分質(zhì)量。典型的劃分方法包括:
          k-means,k-medoids,CLARA(Clustering LARge Application),
          CLARANS(Clustering Large Application based upon RANdomized Search).
          FCM,
          EM(Expectation Maximization):不將對(duì)象明顯地分到么個(gè)簇,而是根據(jù)表示隸書可能性的權(quán)來分配對(duì)象.

          2 層次方法(hierarchical method) 創(chuàng)建一個(gè)層次以分解給定的數(shù)據(jù)集。該方法可以分為自上
          而下(分解)和自下而上(合并)兩種操作方式。為彌補(bǔ)分解與合并的不足,層次合
          并經(jīng)常要與其它聚類方法相結(jié)合,如循環(huán)定位。典型的這類方法包括:
          第一個(gè)是;BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) 方法,它首先利用樹的結(jié)構(gòu)對(duì)對(duì)象集進(jìn)行

          劃分;然后再利
          用其它聚類方法對(duì)這些聚類進(jìn)行優(yōu)化。
          第二個(gè)是CURE(Clustering Using REprisentatives) 方法,它利用固定數(shù)目代表對(duì)象來表示相應(yīng)聚類;然后對(duì)各聚類按照指定
          量(向聚類中心)進(jìn)行收縮。
          第三個(gè)是ROCK方法,它利用聚類間的連接進(jìn)行聚類合并。
          最后一個(gè)CHEMALOEN,它則是在層次聚類時(shí)構(gòu)造動(dòng)態(tài)模型。

          3 基于密度方法,根據(jù)密度完成對(duì)象的聚類。它根據(jù)對(duì)象周圍的密度(如
          DBSCAN)不斷增長聚類。典型的基于密度方法包括:GDBSCAN,DBCLASD,DENCLUE(DENsity-based CLUstEring)
          DBSCAN(Densit-based Spatial Clustering of Application with Noise):該算法通過不斷生長足夠高密
          度區(qū)域來進(jìn)行聚類;它能從含有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類。此方法將一個(gè)聚類定義
          為一組“密度連接”的點(diǎn)集。
          OPTICS(Ordering Points To Identify the Clustering Structure):并不明確產(chǎn)生一
          個(gè)聚類,而是為自動(dòng)交互的聚類分析計(jì)算出一個(gè)增強(qiáng)聚類順序。。

          4 基于網(wǎng)格方法,首先將對(duì)象空間劃分為有限個(gè)單元以構(gòu)成網(wǎng)格結(jié)構(gòu);然后利
          用網(wǎng)格結(jié)構(gòu)完成聚類。
          STING(STatistical INformation Grid) 就是一個(gè)利用網(wǎng)格單元保存的統(tǒng)計(jì)信息進(jìn)行基
          于網(wǎng)格聚類的方法。
          CLIQUE(Clustering In QUEst)和Wave-Cluster 則是一個(gè)將基于網(wǎng)格與基于密度相結(jié)合的方
          法。

          5 基于模型方法,它假設(shè)每個(gè)聚類的模型并發(fā)現(xiàn)適合相應(yīng)模型的數(shù)據(jù)。典型的
          基于模型方法包括:

          統(tǒng)計(jì)方法COBWEB:是一個(gè)常用的且簡(jiǎn)單的增量式概念聚類方法。它的輸入對(duì)象是采
          用符號(hào)量(屬性-值)對(duì)來加以描述的。采用分類樹的形式來創(chuàng)建
          一個(gè)層次聚類。
          CLASSIT是COBWEB的另一個(gè)版本.。它可以對(duì)連續(xù)取值屬性進(jìn)行增量式聚
          類。它為每個(gè)結(jié)點(diǎn)中的每個(gè)屬性保存相應(yīng)的連續(xù)正態(tài)分布(均值與方差);并利
          用一個(gè)改進(jìn)的分類能力描述方法,即不象COBWEB那樣計(jì)算離散屬性(取值)
          和而是對(duì)連續(xù)屬性求積分。但是CLASSIT方法也存在與COBWEB類似的問題。
          因此它們都不適合對(duì)大數(shù)據(jù)庫進(jìn)行聚類處理.
          AutoClass:它采用貝葉斯統(tǒng)計(jì)分析來估算結(jié)果簇的數(shù)目.

          神經(jīng)網(wǎng)絡(luò)方法SOM,LVQ(Learning Vector Quantization)



          凡是有該標(biāo)志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
          、轉(zhuǎn)載請(qǐng)注明來處和原文作者。非常感謝。

          posted on 2006-06-24 13:51 草兒 閱讀(734) 評(píng)論(0)  編輯  收藏 所屬分類: BI and DM
          主站蜘蛛池模板: 武川县| 漯河市| 邢台市| 南安市| 安国市| 汝南县| 南投市| 香港| 达日县| 无极县| 赞皇县| 平谷区| 巍山| 浮山县| 祁门县| 固阳县| 武乡县| 永宁县| 道孚县| 虞城县| 嫩江县| 新民市| 永平县| 云梦县| 西乌珠穆沁旗| 星座| 灵川县| 青田县| 荃湾区| 文昌市| 卓尼县| 象州县| 汉中市| 偏关县| 临安市| 宜都市| 神农架林区| 青浦区| 长汀县| 泗阳县| 华安县|