隨筆-28  評論-51  文章-10  trackbacks-0

          TextMining02-特征提取.pdf

          分詞

          最大匹配法..

          分詞歧義和各種數字,日期,姓名識別

          最大概率法

          最短路徑法

          詞性標注

          基于規則的詞性標注

           

          基于統計的詞性標注(及缺陷)

           

          文檔模型

          布爾模型

           

          向量空間模型(tf-idf

           

          文檔概率模型

           

          文本相似性計算

          基于概率模型的相似度(Okapi收費)

           

          基于vsm的相似度計算

          (基于內積,和集合相似度計算的比較)

          歐氏距離

          向量內積相似度

          余弦相似度

          Jaccard相似度

          文本序列

          海明距離

           

          編輯距離

           

          編輯操作的代價(算法)

           

          特征空間的變化

          LSA隱形語義分析

           

          SVD思想、步驟。(truncated

           

          SVD實例和工具

           

           

           

          PS:
          海明距離在文本序列的相似度比較上會比較有用。


          海明距離。通常一包括m個數據(報文)位和r個冗余位或者校驗位。設整個長度為n(即n=m+r),則此長度為n的單元通常被稱作n位碼字(codeword)。

          給出任意兩個碼字,如10001001和10110001,可以確定它們有多少個對應位不同。在此例中有3位不同。為了確定有多少位不同,只須對兩個碼字 做異或運算,然后計算結果中1的個數。兩個碼字中不同位的個數,稱為海明距離(Hamming Distance)。其重要性在于,假如兩個碼字具有海明距離d,則需要d個位差錯才能將其中一個碼字轉換成另一個。
               一種編碼的校驗和糾錯能力取決于它的海明距離。為檢測出d比特錯,需要使用d+1的編碼;因為d個單比特錯決不可能將一個有效的碼 字轉變成另一個有效的碼字。當接收方看到無效的碼字,它糾能明白發生傳輸錯誤。同樣,為了糾正d比特錯,必須使用距離為2d+1的編碼,這是因為有效碼字 的距離遠到即使發生d個變化,這個發生了變化的碼字仍然比其它碼字都接近原始碼字。作為糾錯碼的一個簡單例子,考慮如下只有4個有效碼字的代碼: 0000000000、0000011111、1111100000和1111111111這種代碼的距離為5,也就是說,它能糾正雙比特錯。假如碼字 0000000111到達后,接收方知道原始碼字應該為0000011111。但是,如果出現了三位錯,而將0000000000變成了 0000000111,則差錯將不能正確地糾正。

          http://www.aygfsteel.com/Files/fullfocus/featureselect.pdf


          posted on 2008-06-09 20:38 fullfocus 閱讀(1646) 評論(0)  編輯  收藏 所屬分類: 聚類算法研究
          主站蜘蛛池模板: 阜阳市| 衡阳县| 宁阳县| 蛟河市| 余庆县| 米脂县| 静海县| 满洲里市| 长泰县| 泰和县| 清丰县| 山西省| 临洮县| 措勤县| 晋宁县| 济源市| 闸北区| 民丰县| 周宁县| 噶尔县| 彭泽县| 富顺县| 彩票| 射阳县| 绥阳县| 山丹县| 唐山市| 顺平县| 桐乡市| 大冶市| 八宿县| 武鸣县| 射洪县| 息烽县| 乐业县| 平果县| 兴城市| 景东| 白朗县| 临泉县| 四子王旗|