Proximity(鄰近)是聚類中一個(gè)重要的概念。拿到一個(gè)n*p的數(shù)據(jù)矩陣后(n個(gè)
為了得到鄰近度(proximity),可以通過直接和間接的方法。所謂直接的方法,
我們得分別考慮分類數(shù)據(jù),連續(xù)數(shù)據(jù),和混合數(shù)據(jù)。
首先是categorical data(分類數(shù)據(jù)),這類數(shù)據(jù)中的變量的取值是離散的有限個(gè)。其中最特殊的是二分的數(shù)據(jù),即各個(gè)變量的取值非零即一。計(jì)算較為簡單,兩個(gè)樣本的各個(gè)變量的比較無非四種情況:1-1,1-0,0-1,0-0。分別計(jì)數(shù)成 a,b,c,d。其中唯一需要注意的是0-0是否要被算作“相同”,基于不同情況可以
對于連續(xù)數(shù)據(jù),就需要定義一個(gè)距離(distance, dissimilarity)的量度了。這個(gè)量度d(i,j)需要滿足三角不等式。即對于任何的樣本點(diǎn)i,j,m有 :d(i,j)+d(j,m)>=d(i,m),而d(i,i)=0。常用的量度方法
最后是混合數(shù)據(jù)的情況。當(dāng)連續(xù)數(shù)據(jù)和分類數(shù)據(jù)混合在一起的時(shí)候,有兩種對策:一是將各個(gè)變量二分,然后使用二分?jǐn)?shù)據(jù)計(jì)算相似性量度的方法;二是,對每種變量,分別構(gòu)建一個(gè)相異性的量度,然后可以結(jié)合權(quán)重或不結(jié)合,將它們混在一起構(gòu)成一個(gè)系數(shù)。值得記下來的是Gower的general similarity measure:
s_{ij}=frac{sum_{k=1}^{p}w_{ijk}s_{ijk}}{sum_{k=1}^{p}w_{ijk}}其中w_{ijk}是權(quán)重,一般設(shè)為0或1,代表該數(shù)據(jù)點(diǎn)是否可用。s_{ijk}是
s_{ij}=1-|x_{ik}-x_{jk}|/R_{k}R_{k}是第k個(gè)變量的幅度(range)。這個(gè)general similarity measure在沒有丟失數(shù)據(jù)的情況下可以使用3.6公式對應(yīng)為歐幾里得的距離矩陣。
?
接下來的議題是如何計(jì)算組與組之間的鄰近度。有兩個(gè)基本的方法可供選擇。
一是,從鄰近矩陣出發(fā),利用兩組的樣本之間的距離值來計(jì)算。比如用兩組間最小的樣本距離值來表示(nearest neighbour distance),最大的距離值(furthest neighbour distance),或者用兩組樣本之間所有距離的平均值來表示。這三種技術(shù)分別對應(yīng)于single linkage(單連鎖)聚類,complete linkage(全連鎖)聚類和group average(組平均)聚類。
另一種方法是,通過組內(nèi)數(shù)據(jù)的統(tǒng)計(jì)性質(zhì)得到一個(gè)可以代表該組的觀察量,然后用它們之間的距離表示組與組之間的距離。最容易想到的方法是計(jì)算各個(gè)變量的平均值,以它們來表示整個(gè)組。更合適的做法是利用上組內(nèi)的統(tǒng)計(jì)性質(zhì)。如 Mahalanobis距離(P46,公式3.13),它利用了兩組數(shù)據(jù)內(nèi)部的協(xié)方差
關(guān)于權(quán)重的選擇。給變量加上權(quán)重相當(dāng)于指定變量的重要性。這種指定可以是由研究者給出或者由數(shù)據(jù)矩陣數(shù)據(jù)中(not 距離矩陣)計(jì)算得出。對后者的最普遍的想法是讓權(quán)重反比于對應(yīng)變量可變化性。這個(gè)可變化性(variability)可
方法一:通過估算類內(nèi)部的變化性來決定權(quán)重的方法。這種方法是權(quán)重選擇中效果最好的。當(dāng)?shù)玫焦烙?jì)的類內(nèi)部的變化性后,比如協(xié)方差矩陣后,可以方便地使用前面提到的Mahalanobis公式計(jì)算兩點(diǎn)間的距離。由Art等人于1982年提出
方法二:后來Gnanadesikan 于1995年進(jìn)一步發(fā)展了這個(gè)方法,估算一個(gè)類間的協(xié)方差矩陣B^{*},用diag(B^{*})(diag(W^{*}))^{
方法三:De Soete提出這樣為每個(gè)變量找到權(quán)重,使權(quán)重后的歐幾里得距離最小化某個(gè)標(biāo)準(zhǔn)使得其偏離超測度(ultrametricity)。這種方法傾向于優(yōu)
方法四:變量選擇。主旨是找出一個(gè)原來變量的子集進(jìn)行后續(xù)的聚類研究。這種做法的例子是Fowlkes等在1988年發(fā)明的正向選擇方法。結(jié)果是對于選中的
Gnanadesikan等在1995年的評價(jià)中指出:1、相同的權(quán)重,標(biāo)準(zhǔn)差權(quán)重,
對權(quán)重選擇的一些建議:1、主觀的確定變量的權(quán)重往往反映了數(shù)據(jù)已存在的分類,因此對聚類分析沒有幫助;2、沒有一個(gè)絕對好的權(quán)重選擇方法,方法的好壞往往取決于未知的類結(jié)構(gòu),盡管如此,大多數(shù)時(shí)候應(yīng)該選擇上面提到的方法二,而流行的一股腦的把所有的變量都放進(jìn)分析中(相同權(quán)重)或是使用標(biāo)準(zhǔn)差計(jì)算權(quán)重的方法似乎沒有效果。
另一個(gè)重要的問題是標(biāo)準(zhǔn)化,因?yàn)槌38鱾€(gè)變量是在不同的測度不同的單位和標(biāo)準(zhǔn)下測量的。當(dāng)所有的變量都是連續(xù)的測度下測得的,常常計(jì)算變量的標(biāo)準(zhǔn)差,然后簡單的使各個(gè)變量單位化再進(jìn)行分析(autoscaling,or standard scoring)。另一個(gè)方法則是對每個(gè)變量除以它們各自的變化范圍(range),
關(guān)于鄰近度度量方法的選擇。方法太多了,沒有一個(gè)絕對的適用于任何情況的選擇,但有些注意點(diǎn)得記住:1、數(shù)據(jù)的性質(zhì)會(huì)很強(qiáng)的影響到量度方法的選擇;2、數(shù)據(jù)的測度影響方法的選擇,如是否是二分的數(shù)據(jù),是樣本的大?。╯ize) 重要還是形狀(shape)重要等等;3、聚類方法與系數(shù)的選取存在聯(lián)系。
在多變量研究中常遇到的問題是,某些數(shù)據(jù)會(huì)有遺失。最簡單(但最好的)的處理方法是只是用沒有數(shù)據(jù)遺失的那些樣本進(jìn)行聚類分析。另一種方法是使用 Gower′s general similarity measure來構(gòu)建鄰近度矩陣,但如果單個(gè)樣本遺失的數(shù)據(jù)較多,這樣建立的鄰近度矩陣就變得不可信,最好還是扔掉這個(gè)樣本!根據(jù)統(tǒng)計(jì)信息估算丟失的值不是值得推薦的辦法。為了估計(jì)這些值,用全局的統(tǒng)計(jì)信息是不合適的,最好當(dāng)然是使用類內(nèi)部的統(tǒng)計(jì)信息,因此有了步進(jìn)的流程來計(jì)算這些值。先使用沒有丟失數(shù)據(jù)的樣本聚類,然后將丟失數(shù)據(jù)的樣本歸入某些類中(e.g.依據(jù)可以使用的那些變量),接著計(jì)算類內(nèi)部的統(tǒng)計(jì)性質(zhì),給丟失的數(shù)據(jù)賦值,最后再拿這所有的樣本變量聚類并重復(fù)最后的兩步直到賦的值和類結(jié)構(gòu)不再變化。實(shí)際應(yīng)用中可以使用多種估算方法,如果各種方法給出的值差不多,則可以有信心的使用估算丟失值的處理方法。
凡是有該標(biāo)志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
、轉(zhuǎn)載請注明來處和原文作者。非常感謝。