隨筆-28 評論-51 文章-10 trackbacks-0

從現在開始，開始我真正的研究計劃：聚類獲取有價值的信息。
今天開始詳細了解了已有的資源和項目代碼，包含中文分詞，文檔向量化，現有的KA+K-MEANS聚類算法。但是據觀察，聚類效果上不是很滿意，主要是類簇的關鍵字抽取不夠準確，特征選擇尚未考慮，聚類精度需要提高。
以下是現有系統的流程圖：明天開始到下周末，研究
1.ka+k-means，其他k-means方法，找出系統不足點
2.研究特征選擇方法，提高聚類前數據的質量

posted on 2008-05-09 22:22 fullfocus 閱讀(653) 評論(2) 編輯收藏所屬分類: 聚類算法研究

評論:

# re: focus聚類研究系列一-----熟悉現有項目基礎（站在巨人的肩膀上） 2008-08-08 13:32 | zr

請問這是什么系統啊，是對網頁的聚類嗎回復更多評論

# re: focus聚類研究系列一-----熟悉現有項目基礎（站在巨人的肩膀上）[未登錄] 2010-06-10 16:31 | Bill

怎么判斷關鍵詞抽取不夠精確呢？請樓主說說你的依據回復更多評論

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: 北大ppt 文本挖掘技術系列之五--TextMining05-聚類北大ppt 文本挖掘技術系列之四---TextMining04-分類北大ppt 文本挖掘技術系列之三---TextMining03-檢索part2 北大ppt 文本挖掘技術系列之二---TextMining03-檢索part1 北大ppt 文本挖掘技術系列之一---TextMining02-特征提取---(附：海明距離) focus聚類研究系列一-----熟悉現有項目基礎（站在巨人的肩膀上） K-MEANS,AHC, single path直觀演示---Clustering Web Search Results TF-IDF解釋召回率與精度

<

2008年5月

>

日

一

二

三

四

五

六

27

28

29

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

常用鏈接

留言簿(2)

隨筆分類

隨筆檔案

文章檔案

他山之石

beansoft
Spring, Struts, Hibernate, SWT
bidaily
business intelligence
raof01
c/c++ unix
Snowdream
c/c++ unix
邂逅你的TA

常用鏈接

留言簿(2)

隨筆分類

隨筆檔案

文章檔案

他山之石

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜