文本聚類是搜索引擎和語義web的基本技術(shù),本文簡(jiǎn)單的文本聚類算法,對(duì)于想學(xué)搜索技術(shù)的初學(xué)者有一定入門作用的。這里會(huì)用到TF/IDF權(quán)重,用余弦夾角計(jì)算文本相似度,用方差計(jì)算兩個(gè)數(shù)據(jù)間歐式距離,用k-means進(jìn)行數(shù)據(jù)聚類等數(shù)學(xué)和統(tǒng)計(jì)知識(shí)。
posted on 2008-08-23 16:54
胖胖泡泡 閱讀(141)
評(píng)論(0) 編輯 收藏