Visualizing Clustering 是指將數據作某種處理之后, 作出的圖像可以由人直接分辨出分類模式。
最最簡單的方法,就是對原始數據直接畫出直方圖(histograms),當然只適用
f(x)=frac{1}{nh} sum_{i=1}^{n}K(frac{x-X_i}{h})而對于二維的情況上面的公式則變成:
f(x)=frac{1}{nh_xh_y}sum_{i=1}{n}K(frac{x-X_i}{h_x},frac{y-Y_i}{h_y})
?
而對于二維以上的情況,就不能直接使用直方圖的方法了。簡單的,可以使用散點圖(scatterplot),即把沒兩個變量組成一對,然后分別畫出它們的分布圖
PCA的更一般的方法是projection pursuit,因為實際上PCA就是一種通過投影降維的方法。Projection Pursuit一般需要將原始的p維數據投影到一維或二維空間里。如果要投影到一維上去,那么需要找出一個適合的投影向量,如果是二維,則需要一個投影平面。衡量投影的效果,需要一個索引函數(index function) ,在PCA里使用的是樣本的偏差。選定索引函數后,接下來要做的就是如何選定合適的投影向量(平面)而使索引函數達到最優(大/小)。所以實際的聚類效果取決于:1.索引函數的選擇;2.優化算法。
最后一種方法是multidimensional scaling(MDS,多維度的縮放),狹義的定義是尋找低維空間,在該空間里的點一一對應于原始的數據點,而各點之間的距離(一般用歐氏距離),盡量跟原空間里各點間的相異程度一致。適用于原始數據的距離矩陣已知的情況下。對這個方法的具體實現我同樣不理解。如何構建低維空間的坐標系呢?難道是根據相互間的距離一個點一個點的畫到低維空間里?
凡是有該標志的文章,都是該blog博主Caoer(草兒)原創,凡是索引、收藏
、轉載請注明來處和原文作者。非常感謝。