今天開始詳細(xì)了解了已有的資源和項(xiàng)目代碼,包含中文分詞,文檔向量化,現(xiàn)有的KA+K-MEANS聚類算法。但是據(jù)觀察,聚類效果上不是很滿意,主要是類簇的關(guān)鍵字抽取不夠準(zhǔn)確,特征選擇尚未考慮,聚類精度需要提高。
以下是現(xiàn)有系統(tǒng)的流程圖:明天開始到下周末,研究
1.ka+k-means,其他k-means方法,找出系統(tǒng)不足點(diǎn)
2.研究特征選擇方法,提高聚類前數(shù)據(jù)的質(zhì)量
