隨筆-28  評(píng)論-51  文章-10  trackbacks-0
          聚類算法研究
          北大ppt 文本挖掘技術(shù)系列之二---TextMining03-檢索part1      摘要: 文本檢索技術(shù)摘要  閱讀全文
          posted @ 2008-06-12 23:12 fullfocus 閱讀(2598) | 評(píng)論 (4)  編輯
          focus聚類研究系列一-----熟悉現(xiàn)有項(xiàng)目基礎(chǔ)(站在巨人的肩膀上)      摘要: 從現(xiàn)在開(kāi)始,開(kāi)始我真正的研究計(jì)劃:聚類獲取有價(jià)值的信息。
          今天開(kāi)始詳細(xì)了解了已有的資源和項(xiàng)目代碼,包含中文分詞,文檔向量化,現(xiàn)有的KA+K-MEANS聚類算法。但是據(jù)觀察,聚類效果上不是很滿意,主要是類簇的關(guān)鍵字抽取不夠準(zhǔn)確,特征選擇尚未考慮,聚類精度需要提高。
          以下是現(xiàn)有系統(tǒng)的流程圖:明天開(kāi)始到下周末,研究
          1.ka+k-means,其他k-means方法,找出系統(tǒng)不足點(diǎn)
          2.研究特征選擇方法,提高聚類前數(shù)據(jù)的質(zhì)量  閱讀全文
          posted @ 2008-05-09 22:22 fullfocus 閱讀(653) | 評(píng)論 (2)  編輯
          K-MEANS,AHC, single path直觀演示---Clustering Web Search Results      摘要: K-MEANS,AHC, single path直觀演示---Clustering Web Search Results  閱讀全文
          posted @ 2008-05-08 15:21 fullfocus 閱讀(644) | 評(píng)論 (0)  編輯
          TF-IDF解釋      摘要: google的數(shù)學(xué)之美 系列九 -- 如何確定網(wǎng)頁(yè)和查詢的相關(guān)性
          主要講解TF-IDF技術(shù),與判斷查詢相關(guān)性。  閱讀全文
          posted @ 2008-05-07 15:38 fullfocus 閱讀(2620) | 評(píng)論 (0)  編輯
          召回率與精度      摘要: 一直搞不清搜索引擎的查全率和查準(zhǔn)率是什么意思,只知道這兩個(gè)是衡量一個(gè)搜索引擎性能的. 今個(gè) 看一篇 南大的學(xué)士論文的時(shí)候, 又碰到這個(gè)問(wèn)題. 所以決定把他搞清楚, 上百度搜了一下, 所獲很多.   閱讀全文
          posted @ 2008-05-07 14:35 fullfocus 閱讀(2392) | 評(píng)論 (4)  編輯

          主站蜘蛛池模板: 云龙县| 常州市| 嘉禾县| 南雄市| 仙桃市| 定兴县| 堆龙德庆县| 星子县| 泗水县| 体育| 阿拉善盟| 延寿县| 林口县| 桦甸市| 龙井市| 聊城市| 太仓市| 上高县| 长泰县| 济阳县| 藁城市| 威信县| 漳州市| 镇坪县| 瑞金市| 温宿县| 邵阳市| 巴楚县| 山东省| 泸水县| 镇江市| 纳雍县| 肥乡县| 湖南省| 广灵县| 牙克石市| 石城县| 青岛市| 江北区| 麦盖提县| 岢岚县|