rcdk, 是在R下面集成了CDK工具包,以此來通過CDK生成的化學性質數據進行更深層次的統計分析,下面來看看在rcdk中如何進行多個化合物結構的聚類。
>library("rcdk") //加載包
>mols <- load.molecules("mymols.sdf") //讀取sdf文件
> fps <- lapply(mols, get.fingerprint, type="extended") //生產fingerprint值
> fp.sim <- fp.sim.matrix(fps, method="tanimoto") //建立矩陣
> fp.dist <- 1-fp.sim
> clustering <- hclust(as.dist(fp.dist))
> plot(clustering)
執行到這里,我們就得到了結果,如下圖:

這里我選擇的是50個化合物結構進行處理。是不是很方便~:)