今天開始詳細了解了已有的資源和項目代碼,包含中文分詞,文檔向量化,現有的KA+K-MEANS聚類算法。但是據觀察,聚類效果上不是很滿意,主要是類簇的關鍵字抽取不夠準確,特征選擇尚未考慮,聚類精度需要提高。
以下是現有系統的流程圖:明天開始到下周末,研究
1.ka+k-means,其他k-means方法,找出系統不足點
2.研究特征選擇方法,提高聚類前數據的質量

只有注冊用戶登錄后才能發表評論。 | ||
![]() |
||
網站導航:
博客園
IT新聞
Chat2DB
C++博客
博問
管理
|
||
相關文章:
|
||