隨筆-28 評論-51 文章-10 trackbacks-0

北大ppt 文本挖掘技術系列之一---TextMining02-特征提取---(附：海明距離)

TextMining02-特征提取.pdf
分詞	最大匹配法..	分詞歧義和各種數字，日期，姓名識別
	最大概率法
	最短路徑法
詞性標注	基于規則的詞性標注
詞性標注	基于統計的詞性標注（及缺陷）
文檔模型	布爾模型
	向量空間模型（tf-idf）
	文檔概率模型
文本相似性計算	基于概率模型的相似度（Okapi收費）
	基于vsm的相似度計算（基于內積，和集合相似度計算的比較）	歐氏距離
		向量內積相似度
		余弦相似度
		Jaccard相似度
文本序列	海明距離
	編輯距離
	編輯操作的代價（算法）
特征空間的變化	LSA隱形語義分析
	SVD思想、步驟。（truncated）
	SVD實例和工具

PS:
海明距離在文本序列的相似度比較上會比較有用。

海明距離。通常一幀包括m個數據（報文）位和r個冗余位或者校驗位。設整個長度為n（即n=m+r），則此長度為n的單元通常被稱作n位碼字(codeword)。

給出任意兩個碼字，如10001001和10110001，可以確定它們有多少個對應位不同。在此例中有3位不同。為了確定有多少位不同，只須對兩個碼字做異或運算，然后計算結果中1的個數。兩個碼字中不同位的個數，稱為海明距離(Hamming Distance)。其重要性在于，假如兩個碼字具有海明距離d，則需要d個位差錯才能將其中一個碼字轉換成另一個。
一種編碼的校驗和糾錯能力取決于它的海明距離。為檢測出d比特錯，需要使用d+1的編碼；因為d個單比特錯決不可能將一個有效的碼字轉變成另一個有效的碼字。當接收方看到無效的碼字，它糾能明白發生傳輸錯誤。同樣，為了糾正d比特錯，必須使用距離為2d+1的編碼，這是因為有效碼字的距離遠到即使發生d個變化，這個發生了變化的碼字仍然比其它碼字都接近原始碼字。作為糾錯碼的一個簡單例子，考慮如下只有4個有效碼字的代碼： 0000000000、0000011111、1111100000和1111111111這種代碼的距離為5，也就是說，它能糾正雙比特錯。假如碼字 0000000111到達后，接收方知道原始碼字應該為0000011111。但是，如果出現了三位錯，而將0000000000變成了 0000000111，則差錯將不能正確地糾正。

http://www.aygfsteel.com/Files/fullfocus/featureselect.pdf

posted on 2008-06-09 20:38 fullfocus 閱讀(1651) 評論(0) 編輯收藏所屬分類: 聚類算法研究

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: 北大ppt 文本挖掘技術系列之五--TextMining05-聚類北大ppt 文本挖掘技術系列之四---TextMining04-分類北大ppt 文本挖掘技術系列之三---TextMining03-檢索part2 北大ppt 文本挖掘技術系列之二---TextMining03-檢索part1 北大ppt 文本挖掘技術系列之一---TextMining02-特征提取---(附：海明距離) focus聚類研究系列一-----熟悉現有項目基礎（站在巨人的肩膀上） K-MEANS,AHC, single path直觀演示---Clustering Web Search Results TF-IDF解釋召回率與精度

<

2008年6月

>

日

一

二

三

四

五

六

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

常用鏈接

留言簿(2)

隨筆分類

隨筆檔案

文章檔案

他山之石

beansoft
Spring, Struts, Hibernate, SWT
bidaily
business intelligence
raof01
c/c++ unix
Snowdream
c/c++ unix
邂逅你的TA

常用鏈接

留言簿(2)

隨筆分類

隨筆檔案

文章檔案

他山之石

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜