亚洲国产精品成人av,日韩中文av,亚洲青青一区

在文本分類的過程中，特征（也可以簡單的理解為“詞”）從人類能夠理解的形式轉換為計算機能夠理解的形式時，實際上經過了兩步驟的量化——特征選擇階段的重要程度量化和將具體文本轉化為向量時的特征權重量化。初次接觸文本分類的人很容易混淆這兩個步驟使用的方法和各自的目的，因而我經常聽到讀者有類似“如何使用TFIDF做特征選擇”或者“卡方檢驗量化權重后每篇文章都一樣”等等困惑。

文本分類本質上也是一個模式識別的問題，因此我想借用一個更直觀的例子來說說特征選擇和權重量化到底各自是什么東西，當然，一旦解釋清楚，你馬上就會覺得文本分類這東西實在白癡，實在沒什么技術含量，你也就不會再繼續看我的技術博客，不過我不擔心，因為你已經踏上了更光明的道路（笑），我高興還來不及。

想想通過指紋來識別一個人的身份，只看一個人的指紋，當然說不出他姓甚名誰，識別的過程實際上是比對的過程，要與已有的指紋庫比較，找出相同的，或者說相似到一定程度的那一個。

首要的問題是，人的指紋太復雜，包含太多的位置和幾何形狀，要完全重現一個人的指紋，存儲和計算都是大麻煩。因此第一步總是一個特征選擇的問題，我們把全人類的指紋都統計一下，看看哪幾個位置能夠最好的區分不同的人。顯然不同的位置效果很不一樣，在有的位置上，我的指紋是是什么形狀，其他人也大都是這個形狀，這個位置就不具有區分度，或者說不具有表征性，或者說，對分類問題來說，它的重要程度低。這樣的位置我們就傾向于在識別的時候根本不看它，不考慮它。

那怎么看誰重要誰不重要呢？這就依賴于具體的選擇方法如何來量化重要程度，對卡方檢驗和信息增益這類方法來說，量化以后的得分越大的特征就越重要（也就是說，有可能有些方法，是得分越小的越重要）。

比如說你看10個位置，他們的重要程度分別是：

1 2 3 4 5 6 7 8 9 10

（20，5，10，20，30，15，4，3，7， 3）

顯然第1，第3，4，5，6個位置比其他位置更重要，而相對的，第1個位置又比第3個位置更重要。

識別時，我們只在那些重要的位置上采樣。當今的指紋識別系統，大都只用到人指紋的5個位置（驚訝么？只要5個位置的信息就可以區分60億人），這5個位置就是經過特征選擇過程而得以保留的系統特征集合。假設這個就是剛才的例子，那么該集合應該是：

（第1個位置，第3個位置，第4個位置，第5個位置，第6個位置）

當然，具體的第3個位置是指紋中的哪個位置你自己總得清楚。

確定了這5個位置之后，就可以把一個人的指紋映射到這個只有5個維度的空間中，我們就把他在5個位置上的幾何形狀分別轉換成一個具體的值，這就是特征權重的計算。依據什么來轉換，就是你選擇的特征權重量化方法，在文本分類中，最常用的就是TFIDF。

我想一定是“權重“這個詞誤導了所有人，讓大家以為TFIDF計算出的值代表的是特征的重要程度，其實完全不是。例如我們有一位男同學，他的指紋向量是：

（10，3，4，20，5）

你注意到他第1個位置的得分（10）比第3個位置的得分（3）高，那么能說第1個位置比第3個位置重要么？如果再有一位女同學，她的指紋向量是：

（10，20，4，20，5）

看看，第1個位置得分（10）又比第3個位置（20）低了，那這兩個位置到底哪個更重要呢？答案是第1個位置更重要，但這不是在特征權重計算這一步體現出來的，而是在我們特征選擇的時候就確定了，第1個位置比第3個位置更重要。

因此要記住，通過TFIDF計算一個特征的權重時，該權重體現出的根本不是特征的重要程度！

那它代表什么？再看看兩位同學的指紋，放到一起：

（10， 3，4，20，5）

（10，20，4，20，5）

在第三個位置上女同學的權重高于男同學，這不代表該女同學在指紋的這個位置上更“優秀“（畢竟，指紋還有什么優秀不優秀的分別么，笑），也不代表她的這個位置比男同學的這個位置更重要，3和20這兩個得分，僅僅代表他們的”不同“。

在文本分類中也是如此，比如我們的系統特征集合只有兩個詞：

（經濟，發展）

這兩個詞是使用卡方檢驗（特征選擇）選出來的，有一篇文章的向量形式是

（2，5）

另一篇

（3，4）

這兩個向量形式就是用TFIDF算出來的，很容易看出兩篇文章不是同一篇，為什么？因為他們的特征權重根本不一樣，所以說權重代表的是差別，而不是優劣。想想你說“經濟這個詞在第二篇文章中得分高，因此它在第二篇文章中比在第一篇文章中更重要“，這句話代表什么意義呢？你自己都不知道吧（笑）。

所以，當再說起使用TFIDF來計算特征權重時，最好把“權重“這個字眼忘掉，我們就把它說成計算得分好了（甚至”得分“也不太好，因為人總會不自覺的認為，得分高的就更重要），或者就僅僅說成是量化。

如此，你就再也不會拿TFIDF去做特征選擇了。

小Tips：為什么有的論文里確實使用了TFIDF作特征選擇呢？

嚴格說來并不是不可以，而且嚴格說來只要有一種方法能夠從一堆特征中挑出少數的一些，它就可以叫做一種特征選擇方法，就連“隨機選取一部分“都算是一種，而且效果并沒有差到驚人的地步哦！還是可以分對一大半的哦！所以有的人就用TFIDF的得分來把特征排排序，取得分最大的幾個進入系統特征集合，效果也還行（畢竟，連隨機選取效果也都還行），怎么說呢，他們愿意這么干就這么干吧。就像咱國家非得實行戶口制度，這個制度說不出任何道理，也不見他帶來任何好處，但不也沒影響二十一世紀成為中國的世紀么，呵呵。

發表于 2009-04-19 11:40 Jasper 閱讀(44470) 評論(48) 編輯收藏所屬分類: 文本分類技術

評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

效率果然很高，謝謝～拿TFIDF做選擇的還真的不少喔，看到這樣的論文馬上就扔掉了。實驗中TFIDF和詞頻做SVM的輸入區別大不？

Lebee_leon 評論于 2009-04-19 12:47 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別[未登錄]

好文章

bee 評論于 2009-04-21 11:06 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別[未登錄]

讀完舒坦。。。
多謝博主。

博主能不能講講關于LIBSVM的使用方面的文章啊。。。也許如何使用本身并不難，但沒人給你引個路，想開始還真難啊。。。不是有句話叫萬事開頭難嗎？
比如輸入的文本格式要怎么處理成標準輸入格式呢？還有具體使用過程中會遇到的一些問題。。。

不管怎么樣，還是很期待你的下一篇文章^.^。學到了很多東西啊。

bee 評論于 2009-04-21 11:23 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

這是我曾今犯的錯，呵呵，樓主的文章深入淺出，非常好，我的畢設終于順利完成了！

sunshang 評論于 2009-04-22 22:04 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

請問樓主知道如果我要計算多個屬性和起來的信息增益如何去做呢？

koala++ 評論于 2009-04-25 18:09 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

@koala++
如果假設各個特征項是獨立的，可以簡單的計算每個特征的增益，然后取和。
如果假設不是獨立的，就把他們的組合看成是一個新的變量，統計這個新變量可能的取值，每個取值取到的概率，重復運用信息增益的公式計算即可。

Jasper 評論于 2009-04-26 12:25 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

樓主，我感覺你這里的比較有問題：
你說：“我想一定是“權重“這個詞誤導了所有人，讓大家以為TFIDF計算出的值代表的是特征的重要程度，其實完全不是。例如我們有一位男同學，他的指紋向量是：（10，3，4，20，5）你注意到他第1個位置的得分（10）比第3個位置的得分（3）高，那么能說第1個位置比第3個位置重要么？”

我想在指紋識別中這個值確實不能夠說位置1就比位置3重要，那是因為你的這個從指紋特征往這個向量值映射的函數我們未知所造成的?？墒窃赥C問題中，TFIDF值的建模就是把那些出現頻率高，且區分作用大的詞賦予更高的tfidf值，所以他的高是可以說明這個詞更加重要的（或者是這個特征更加重要）

假如一篇文章的tfidf向量表示為（10，3，4，20，5），那么這里的“10”和“3”會帶來什么效果呢？很明顯，在做向量乘法計算相似度的時候顯然是“10”比“3”對于整體的相似度貢獻更大。因為similarity = (10，3，4，20，5) * (x1,x2,x3,x4,x5)T; 那么在不考慮x1,x2,..x5的情況下。顯然10比3“貢獻”大啊。

所以請博主在考慮一下，TFIDF這個在IR中如此經典的一個模型難道就真的這么一文不值？

lianghao.lee 評論于 2009-04-26 13:37 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

@lianghao.lee
就是因為不同的人在分類的不同階段對“重要”的定義彼此不同，所以大家會在一項指標重要還是不重要上存在分歧。注意我在談特征選擇階段特征對類別區分度方面的“重要”，而您糾結在文章向量表示時相似度判別時的“重要”。這種混淆很常見，所以也不能怪您，如果您有興趣繼續在文本分類方面深入，相信您有一天會得到不同的理解。

Jasper 評論于 2009-04-26 17:07 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

非常感謝

koala++ 評論于 2009-04-27 09:48 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別[未登錄]

我曾經也在這個問題上琢磨了好久?，F在很多文章都沒有在這點上說清楚，也許是我沒能理解清楚。
呵呵有這篇文章，以后一定能讓好多人解惑。

James 評論于 2009-04-28 14:13 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

@Jasper
呵呵~ 我并沒有說TFIDF是最好的特征選擇方法，可他確實是一種特征選擇的途徑，我只是不太同意你在最后說的：
“所以有的人就用TFIDF的得分來把特征排排序，取得分最大的幾個進入系統特征集合，效果也還行（畢竟，連隨機選取效果也都還行）”
因為如果您能夠通過實驗證明統計結果表明TFIDF特征選擇與隨機選取效果的期望和方差基本一致的話，您就可以說明TFIDF確實對特征提取沒有作用，而其他人之前確實將TFIDF與特征選擇混淆了。可是如果他的效果好于隨機的話就說明他還是有一定的道理的。

呵呵~ 還有你說：而您糾結在文章向量表示時相似度判別時的“重要”。

特征提取不是分類的目的，只是想通過特征提取來降維并得到有區分度的特征詞，可是這些特征詞最后還是為基于相似度的分類服務的，所以可以將特征提取的作用歸納為:找到區分度重要的詞，找到對相似度計算重要的詞

對于區分度重要，如果通過Tfidf提取出來的特征能夠很好的定義相同類別里面文本的相似，不就是能夠很好的定義不同類別里面文本的區別嗎？也許是博主認為做tfidf特征提取就是將tfidf值最高的詞提取出來了，所以認為這樣的不合理吧。如果能夠很好的利用tfidf值的類內分布和類間分布來做特征提取是能夠很好的得到有區分度的特征詞的。

而另一方面，而正如博主所說的tfidf在相似度計算中是很“重要”的，所以用tfidf來做特征提取對于之后的分類的相似度計算是很有用的。

拙見，海涵~

lianghao.lee 評論于 2009-05-01 21:32 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

@lianghao.lee
連您自己都同意了我的觀點，即認為單純使用TFIDF值來判斷一個特征是否有區分度不夠，而應該考慮該值在類間的分布，這個分布情況，不管您給它起什么名字，它一定不叫TFIDF，它只是以TFIDF值為基礎，正如信息增益，卡方檢驗和互信息等方法全都是以特征的文檔頻率為基礎一樣，它們都不叫文檔頻率方法，只有直接依據文檔頻率大小排序的方法才叫做“文檔頻率特征選擇”（而且確實有這種方法）。因為說到底，我們從文本中能觀察到的量其實只有兩個：詞頻和文檔頻率，所有的方法一律以這兩個量為計算基礎，但不能由此把所有的方法都叫做詞頻方法或者文檔頻率方法。TFIDF也是一種很基礎的量（它是由詞頻和文檔頻率計算來的），同樣它也帶來了較詞頻和文檔頻率單獨使用完全不同的效果。
如果您同意這些，您就會明白我所說的“TFIDF不能用來做特征選擇”，正是指單獨使用一個特征的TFIDF值來判斷毫無道理，卡方檢驗完全基于文檔頻率計算，但單看文檔頻率也毫無道理（好吧，文檔頻率有那么一點道理，呵呵）。
另外，兩個文檔的相似度在有的分類模型里（例如支持向量機）里完全沒有用處，您通過文檔在空間中的分布也可以看出來，一些位于類別邊界附近的文檔，其實與另一個類里的文檔更加相似（反而與同類的文檔不那么相似），在這種模型中，我們僅通過它所處的位置來判斷分類，而絲毫不受它與誰相似的影響。相信這一點您一想就能明白。當然這里所爭論的乃是對分類來說文檔相似度是否一定有用（對有的方法完全沒用），而不是說TFIDF對判斷相似是否有用，我要說，對文檔相似度計算來說，TFIDF是非常有效的。

Jasper 評論于 2009-05-02 16:47 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

如果說權重不是重要度，那用KNN法的時候，那些權重大的的確起到了比較大的影響作用。

dvdface 評論于 2009-05-02 22:00 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

特征選擇是降維，減少文本特征的數量，去掉冗余信息量。特征權重計算的權重只是為了向量表示嗎？對后面的文本分類算法起到什么作用了？

radar 評論于 2009-06-05 16:47 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

@radar
準確的說,計算權重是為了能給每篇文章一個"唯一"的身份,就跟計算指紋不是為了得到指紋數據本身,而是為了得到唯一性一樣.我們需要一種指標,這種指標能讓計算機"看到"不同的兩篇文章確實不同,并且知道不同在哪里.只有能看到這種不同,計算機才能看出同類文章相似在哪里.如果有一種指標,它衡量每篇文章時結果都一樣,顯然程序沒法在這種數據基礎上學習分類的.因此形成向量表示實際是一個中間目的,終極的目的是為了讓文章之間看上去彼此不同,并且這種不同有所依據.

Jasper 評論于 2009-06-05 16:56 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

想請問一下，那新的待分類的文本的權重如何確定？也是和訓練文本一樣？重新TFIDF來計算？

hezi 評論于 2009-06-14 09:58 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

博主，能不能寫下關于SMO算法啊，詳細通俗易懂點的，謝謝

dawsonjin 評論于 2009-07-03 20:29 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

看百家講壇，喜歡易中天把三國講得輕松；今天看你的SVM入門（七），吸引我一路看過來。了不起，了不起。復雜概念在你這兒變得這么容易親近，榜樣啊。

正學模式分類評論于 2009-09-16 20:56 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別[未登錄]

您的意思，是不是類似于，中國的勞動密集型的制造業發達，美國的技術密集型的科技產業發達，這樣形成互補，但是中國跟印度，都是勞動密集型的制造業發達，有類似的條件，應該歸為一類。但是，中國的勞動密集型的制造業在中國，“不重要”。重要不重要，看你怎么比吧！難道說跟俄羅斯的輕工業來比，體現中國輕工業占了很高的GDP比重？很“重要”？只能說它在中國比在俄羅斯占的GDP比重大，更重要。（看它不當輕工當回事，中國倒是合理發展了輕工）

一個固定的詞IDF只有一個，不同的是TF，占詞頻的比重大。在AB兩篇文章中如果幾個不同的詞，TF都基本一致，比如說都是（5，1），而這兩個詞在C中是（1，5），難道就僅靠隨機判斷，就能得出AB同一類，跟C不同一類嗎？svm里面的核方法，是在原空間進行點積或者向量相減之后點積（rbf核）這樣的方法可以跟隨機等價嗎？

還有“經濟這個詞在第二篇文章中得分高，因此它在第二篇文章中比在第一篇文章中更重要”，TF高，難道意味著這個詞在第二篇文章不比第一篇重要嗎？

eric 評論于 2009-10-05 00:58 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別[未登錄]

第二段“占詞頻的比重大”，后面補上“的詞基本一致，難道還不能分為一類嗎？”

eric 評論于 2009-10-05 01:05 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別[未登錄]

如果要談什么重要還是不重要,那首先要牢記評判重要的標準,或者說,明確自己說的指標針對什么問題而言重要還是不重要。文中的觀點是告訴大家TFIDF在特征選擇階段不重要，而在分類階段很重要。但有太多的朋友在辯駁時混淆了問題的討論范圍。您也一再強調TFIDF值一樣的詞對分類的影響云云，可見您其實也在用我的結論往另一個問題上套。不過學習的過程大抵如此，我們一錯再錯，一錯再錯，但卻越來越好，越來越好。希望能和大家一起進步。@eric

Jasper 評論于 2009-10-05 14:44 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

在利用wvtool實現文本的向量化時候，
似乎看不到特征選取，即上文中的選擇特征位置的過程，
而僅僅存在TFIDF來進行對關鍵詞（針對詞頻選取topN作為關鍵詞）進行向量化。
如何將博主提到的卡方檢驗和chi融入其中呢？

cuijie 評論于 2009-10-26 16:50 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

@cuijie
我也有這個問題，還希望有人能給解答下

strayly 評論于 2009-12-26 18:13 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

可以理解為:特征選擇，如chi-square之類比較的是特征之間誰對分類效果更優，屬于橫向比對；而tfidf，比較的是單個特征對于文檔應當歸屬那個類的權重，屬于縱向比對.

l0he1g 評論于 2010-03-11 10:48 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

@Jasper同意

char 評論于 2010-12-09 10:39 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

看完樓主的文章有個疑問：我一直覺得TFIDF用來做特征選擇依據挺正常的啊？為什么樓主覺得這樣不合理呢？

TFIDF= 某個詞在某篇文本中出現的次數 / 有該詞出現的文本數量，

我覺得這個TFIDF值能夠反映某個詞對于不同類文本間的區分度，所以TFIDF越大就證明這個詞對于區分不同類文本的作用越大（也就意味著特征明顯）。

不知我說的對不對？

請教樓主，謝謝~

Andyseren 評論于 2010-12-27 16:17 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

看了很有收獲

guolinagogo 評論于 2011-02-25 16:12 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

博主知道RVM嗎？還想聽下博主關于RVM的講解。

happy 評論于 2011-04-08 09:35 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

博主的思路應該是局限與discriminative model 里面，做為分類買的一種，tfidf確實不太適合，但是生成模型里，面有時候就是有權重的概念@lianghao.lee

alexz 評論于 2012-09-02 00:24 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

看了博主的觀點，有點疑問，對于一篇待分類文本，如果不用tfidf，那么應該如何進行特征提取？

路過評論于 2012-10-19 17:50 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

具體用SVM如何做，樓主能不能給個文章或者鏈接？

劉康評論于 2012-10-27 16:47 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

@Jasper
"即認為單純使用TFIDF值來判斷一個特征是否有區分度不夠，而應該考慮該值在類間的分布，這個分布情況，不管您給它起什么名字，它一定不叫TFIDF，它只是以TFIDF值為基礎"

“該值在類間的分布”即是說該選擇的特征應該在某類出現多，而其它類出現少。對吧？也即該特征的IDF（反文檔頻率）在不同類的方差越大越好。
那么，在選特征時需滿足兩個條件：
1.特征的TFIDF夠高，保證文檔區分度
2.特征的IDF在不同類的方差夠大，保證分類的區分度

不知這樣如何，請指教

YCloud 評論于 2012-11-06 15:22 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

同意，博主文章對看不懂那些所謂論文的人幫助很大~我也是其中之一~~

阿D 評論于 2012-11-23 17:40 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

能對但一個文件進行每個特征的權重計算嗎~？

阿D 評論于 2012-12-21 15:57 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

只對一篇文檔進行特征權重量化的話怎么能用ＴＦＩＤＦ　文本總數是１　某個詞的文件頻率就會是１　這樣ＩＤＦ值就為０　那么提取出來的特征向量就是個零向量了！

ｚｗｂｊａｙ評論于 2012-12-23 11:32 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別[未登錄]

那如果經過量化之后的數值是相同的，比如你舉例的男生和女生的五維數值相同，則說明以下兩點中一個嗎？1，倆人是一個人；2，權重計算存在的漏洞，或者特征選擇的不夠好。

Angie 評論于 2013-08-10 15:23 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

同意，tf-idf能有效評估詞對單一一個文檔的重要性，但是無法評估詞對某個類別的重要程度@l0he1g

te_amo_cuba 評論于 2013-08-27 17:05 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

狠好，收藏~

talisa 評論于 2014-03-24 16:02 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別[未登錄]

深入淺出啊，可惜作者沒有更新了！

天馬行空評論于 2014-04-06 09:29 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

贊同樓主！
很多人沒有搞清楚特征選選擇和特征量化的區別。
idf用來做特征選擇是可以的，因為它代表該詞（特征）在文檔集上的分布；tfidf則不能用于特征選擇，因為特征選擇的目的是在所有詞中選擇一部分重要的詞作為文本特征，判斷標準是跟具體某一篇文檔無關的，而tfidf的tf因子與文檔有關。在不同文檔中tf不同，因此tfidf只能區分該詞對不同文檔的重要程度，但不能代表分類問題的區分度。

tfidf作為特征量化方法是可以，實際上在選擇了特征后用tf也可以，因為同一個詞idf對不同文檔來說是常量，“特征量化”本身一定要能差別話該特征在不同文檔上的分布。

karl 評論于 2014-06-04 13:14 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別[未登錄]

能不能加我QQ?524857559，我叫LQ

LQ 評論于 2014-10-15 18:25 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

樓主分不清權重和權值

patience_tt 評論于 2015-04-04 22:39 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

看了樓主的文章，立馬將這兩個概念區分開來了。之前一直搞混呢~~謝謝樓主哦^__^ 贊一個！

windysai 評論于 2015-04-29 09:36 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

不太明白為什么tfidf不能代表特征的重要性. 竊以為既能用來做特征選擇, 又能當做weight. 這跟LR的weights既能用來特征選擇也能用來分類是一個意思

ffl 評論于 2015-05-22 17:31 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

我覺得博主說得還不是特別準確，關于某一個詞的TF-IDF值，TF針對該詞在某一篇文檔中的度量，IDF針對該詞在所有文檔中的度量，合起來就是該個詞在某一篇特定文檔中的度量（當然這也是有包含所有文檔的信息，TF-IDF具體的定義相信大家都清楚）。同一個詞在不同的文檔中，TF-IDF值大小差別也許不能區分出重要性的差別。但是在同一篇文檔中，不同詞的在同一篇文檔中TF-IDF值得大小還是能夠體現出權重大小的。比如說博主舉得例子：
文檔A:（2，5）
文檔B:（3，4）
不同文檔A和B的同一個位置：說2的權重小于3，5的權重大于4，這都不準確！但是，在同一篇文檔中，A:2的權重小于5，B:3的權重小于4，這都是沒有問題的！
這也是為什么能根據TF-IDF的大小，從一篇文章中提取關鍵詞的原因。

kzy 評論于 2015-07-23 14:11 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

看過《數學之美》的人，再結合這篇文章，你就會發現，在文本分類中，td-idf是不能用于特征選擇的（具體見上面的分析），正如博主所說，應該是后面的分類時，為某一文檔做特征量化；但是在信息檢索里面，網頁與查詢的相關性度量，td-idf又有點“特征選擇”的意思。
拙見，見陋了~

ocean 評論于 2015-12-11 13:09 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

@Jasper
感覺越講越亂了

豐富評論于 2016-01-06 18:07 回復更多評論

# re: 文本分類入門（番外篇）特征選擇與特征權重計算的區別

還可以呦，點個贊

fn 評論于 2016-03-20 21:07 回復更多評論

文本分類入門（番外篇）特征選擇與特征權重計算的區別

公告

常用鏈接

留言簿(64)

隨筆分類

隨筆檔案

文章分類

搜索

最新評論

閱讀排行榜

評論排行榜

Jasper's Java Jacal 嘉士伯的Java小屋
BlogJava \| 首頁 \| 發新隨筆 \| 發新文章 \| 聯系 \| 聚合 \| 管理	隨筆：51 文章：2 評論：717 引用：0