隨筆-28 評論-51 文章-10 trackbacks-0

focus聚類研究系列一-----熟悉現(xiàn)有項(xiàng)目基礎(chǔ)（站在巨人的肩膀上）

從現(xiàn)在開始，開始我真正的研究計(jì)劃：聚類獲取有價(jià)值的信息。
今天開始詳細(xì)了解了已有的資源和項(xiàng)目代碼，包含中文分詞，文檔向量化，現(xiàn)有的KA+K-MEANS聚類算法。但是據(jù)觀察，聚類效果上不是很滿意，主要是類簇的關(guān)鍵字抽取不夠準(zhǔn)確，特征選擇尚未考慮，聚類精度需要提高。
以下是現(xiàn)有系統(tǒng)的流程圖：明天開始到下周末，研究
1.ka+k-means，其他k-means方法，找出系統(tǒng)不足點(diǎn)
2.研究特征選擇方法，提高聚類前數(shù)據(jù)的質(zhì)量

posted on 2008-05-09 22:22 fullfocus 閱讀(653) 評論(2) 編輯收藏所屬分類: 聚類算法研究

評論:

# re: focus聚類研究系列一-----熟悉現(xiàn)有項(xiàng)目基礎(chǔ)（站在巨人的肩膀上） 2008-08-08 13:32 | zr

請問這是什么系統(tǒng)啊，是對網(wǎng)頁的聚類嗎回復(fù) 更多評論

# re: focus聚類研究系列一-----熟悉現(xiàn)有項(xiàng)目基礎(chǔ)（站在巨人的肩膀上）[未登錄] 2010-06-10 16:31 | Bill

怎么判斷關(guān)鍵詞抽取不夠精確呢？請樓主說說你的依據(jù) 回復(fù) 更多評論

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: 北大ppt 文本挖掘技術(shù)系列之五--TextMining05-聚類北大ppt 文本挖掘技術(shù)系列之四---TextMining04-分類北大ppt 文本挖掘技術(shù)系列之三---TextMining03-檢索part2 北大ppt 文本挖掘技術(shù)系列之二---TextMining03-檢索part1 北大ppt 文本挖掘技術(shù)系列之一---TextMining02-特征提取---(附：海明距離) focus聚類研究系列一-----熟悉現(xiàn)有項(xiàng)目基礎(chǔ)（站在巨人的肩膀上） K-MEANS,AHC, single path直觀演示---Clustering Web Search Results TF-IDF解釋召回率與精度

<

2008年5月

>

日

一

二

三

四

五

六

27

28

29

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

常用鏈接

留言簿(2)

隨筆分類

隨筆檔案

文章檔案

他山之石

beansoft
Spring, Struts, Hibernate, SWT
bidaily
business intelligence
raof01
c/c++ unix
Snowdream
c/c++ unix
邂逅你的TA

常用鏈接

留言簿(2)

隨筆分類

隨筆檔案

文章檔案

他山之石

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜