隨筆-28  評(píng)論-51  文章-10  trackbacks-0

          TextMining02-特征提取.pdf

          分詞

          最大匹配法..

          分詞歧義和各種數(shù)字,日期,姓名識(shí)別

          最大概率法

          最短路徑法

          詞性標(biāo)注

          基于規(guī)則的詞性標(biāo)注

           

          基于統(tǒng)計(jì)的詞性標(biāo)注(及缺陷)

           

          文檔模型

          布爾模型

           

          向量空間模型(tf-idf

           

          文檔概率模型

           

          文本相似性計(jì)算

          基于概率模型的相似度(Okapi收費(fèi))

           

          基于vsm的相似度計(jì)算

          (基于內(nèi)積,和集合相似度計(jì)算的比較)

          歐氏距離

          向量?jī)?nèi)積相似度

          余弦相似度

          Jaccard相似度

          文本序列

          海明距離

           

          編輯距離

           

          編輯操作的代價(jià)(算法)

           

          特征空間的變化

          LSA隱形語(yǔ)義分析

           

          SVD思想、步驟。(truncated

           

          SVD實(shí)例和工具

           

           

           

          PS:
          海明距離在文本序列的相似度比較上會(huì)比較有用。


          海明距離。通常一包括m個(gè)數(shù)據(jù)(報(bào)文)位和r個(gè)冗余位或者校驗(yàn)位。設(shè)整個(gè)長(zhǎng)度為n(即n=m+r),則此長(zhǎng)度為n的單元通常被稱(chēng)作n位碼字(codeword)。

          給出任意兩個(gè)碼字,如10001001和10110001,可以確定它們有多少個(gè)對(duì)應(yīng)位不同。在此例中有3位不同。為了確定有多少位不同,只須對(duì)兩個(gè)碼字 做異或運(yùn)算,然后計(jì)算結(jié)果中1的個(gè)數(shù)。兩個(gè)碼字中不同位的個(gè)數(shù),稱(chēng)為海明距離(Hamming Distance)。其重要性在于,假如兩個(gè)碼字具有海明距離d,則需要d個(gè)位差錯(cuò)才能將其中一個(gè)碼字轉(zhuǎn)換成另一個(gè)。
               一種編碼的校驗(yàn)和糾錯(cuò)能力取決于它的海明距離。為檢測(cè)出d比特錯(cuò),需要使用d+1的編碼;因?yàn)閐個(gè)單比特錯(cuò)決不可能將一個(gè)有效的碼 字轉(zhuǎn)變成另一個(gè)有效的碼字。當(dāng)接收方看到無(wú)效的碼字,它糾能明白發(fā)生傳輸錯(cuò)誤。同樣,為了糾正d比特錯(cuò),必須使用距離為2d+1的編碼,這是因?yàn)橛行Тa字 的距離遠(yuǎn)到即使發(fā)生d個(gè)變化,這個(gè)發(fā)生了變化的碼字仍然比其它碼字都接近原始碼字。作為糾錯(cuò)碼的一個(gè)簡(jiǎn)單例子,考慮如下只有4個(gè)有效碼字的代碼: 0000000000、0000011111、1111100000和1111111111這種代碼的距離為5,也就是說(shuō),它能糾正雙比特錯(cuò)。假如碼字 0000000111到達(dá)后,接收方知道原始碼字應(yīng)該為0000011111。但是,如果出現(xiàn)了三位錯(cuò),而將0000000000變成了 0000000111,則差錯(cuò)將不能正確地糾正。

          http://www.aygfsteel.com/Files/fullfocus/featureselect.pdf


          posted on 2008-06-09 20:38 fullfocus 閱讀(1646) 評(píng)論(0)  編輯  收藏 所屬分類(lèi): 聚類(lèi)算法研究
          主站蜘蛛池模板: 苗栗县| 河曲县| 阜南县| 凤山县| 宾川县| 合肥市| 巍山| 拜城县| 朝阳市| 光泽县| 扎兰屯市| 信宜市| 绥德县| 依兰县| 江华| 舞阳县| 民权县| 柘荣县| 横峰县| 罗定市| 怀仁县| 宜城市| 临江市| 承德县| 韶山市| 桂林市| 南城县| 玉田县| 延边| 海兴县| 凤山县| 雷州市| 开江县| 精河县| 邛崃市| 长葛市| 夹江县| 唐河县| 平度市| 甘孜县| 封开县|