一本大道香蕉8中文在线视频,性xx色xx综合久久久xx,欧美日韩在线网站

接下來要說的東西其實不是松弛變量本身，但由于是為了使用松弛變量才引入的，因此放在這里也算合適，那就是懲罰因子C。回頭看一眼引入了松弛變量以后的優化問題：

注意其中C的位置，也可以回想一下C所起的作用（表征你有多么重視離群點，C越大越重視，越不想丟掉它們）。這個式子是以前做SVM的人寫的，大家也就這么用，但沒有任何規定說必須對所有的松弛變量都使用同一個懲罰因子，我們完全可以給每一個離群點都使用不同的C，這時就意味著你對每個樣本的重視程度都不一樣，有些樣本丟了也就丟了，錯了也就錯了，這些就給一個比較小的C；而有些樣本很重要，決不能分類錯誤（比如中央下達的文件啥的，笑），就給一個很大的C。

當然實際使用的時候并沒有這么極端，但一種很常用的變形可以用來解決分類問題中樣本的“偏斜”問題。

先來說說樣本的偏斜問題，也叫數據集偏斜（unbalanced），它指的是參與分類的兩個類別（也可以指多個類別）樣本數量差異很大。比如說正類有10，000個樣本，而負類只給了100個，這會引起的問題顯而易見，可以看看下面的圖：

方形的點是負類。H，H₁，H₂是根據給的樣本算出來的分類面，由于負類的樣本很少很少，所以有一些本來是負類的樣本點沒有提供，比如圖中兩個灰色的方形點，如果這兩個點有提供的話，那算出來的分類面應該是H’，H₂’和H₁，他們顯然和之前的結果有出入，實際上負類給的樣本點越多，就越容易出現在灰色點附近的點，我們算出的結果也就越接近于真實的分類面。但現在由于偏斜的現象存在，使得數量多的正類可以把分類面向負類的方向“推”，因而影響了結果的準確性。

對付數據集偏斜問題的方法之一就是在懲罰因子上作文章，想必大家也猜到了，那就是給樣本數量少的負類更大的懲罰因子，表示我們重視這部分樣本（本來數量就少，再拋棄一些，那人家負類還活不活了），因此我們的目標函數中因松弛變量而損失的部分就變成了：

其中i=1…p都是正樣本，j=p+1…p+q都是負樣本。libSVM這個算法包在解決偏斜問題的時候用的就是這種方法。

那C₊和C_-怎么確定呢？它們的大小是試出來的（參數調優），但是他們的比例可以有些方法來確定。咱們先假定說C₊是5這么大，那確定C_-的一個很直觀的方法就是使用兩類樣本數的比來算，對應到剛才舉的例子，C_-就可以定為500這么大（因為10，000：100=100：1嘛）。

但是這樣并不夠好，回看剛才的圖，你會發現正類之所以可以“欺負”負類，其實并不是因為負類樣本少，真實的原因是負類的樣本分布的不夠廣（沒擴充到負類本應該有的區域）。說一個具體點的例子，現在想給政治類和體育類的文章做分類，政治類文章很多，而體育類只提供了幾篇關于籃球的文章，這時分類會明顯偏向于政治類，如果要給體育類文章增加樣本，但增加的樣本仍然全都是關于籃球的（也就是說，沒有足球，排球，賽車，游泳等等），那結果會怎樣呢？雖然體育類文章在數量上可以達到與政治類一樣多，但過于集中了，結果仍會偏向于政治類！所以給C₊和C_-確定比例更好的方法應該是衡量他們分布的程度。比如可以算算他們在空間中占據了多大的體積，例如給負類找一個超球——就是高維空間里的球啦——它可以包含所有負類的樣本，再給正類找一個，比比兩個球的半徑，就可以大致確定分布的情況。顯然半徑大的分布就比較廣，就給小一點的懲罰因子。

但是這樣還不夠好，因為有的類別樣本確實很集中，這不是提供的樣本數量多少的問題，這是類別本身的特征（就是某些話題涉及的面很窄，例如計算機類的文章就明顯不如文化類的文章那么“天馬行空”），這個時候即便超球的半徑差異很大，也不應該賦予兩個類別不同的懲罰因子。

看到這里讀者一定瘋了，因為說來說去，這豈不成了一個解決不了的問題？然而事實如此，完全的方法是沒有的，根據需要，選擇實現簡單又合用的就好（例如libSVM就直接使用樣本數量的比）。

發表于 2009-03-17 20:04 Jasper 閱讀(28586) 評論(29) 編輯收藏所屬分類: 文本分類技術

評論

# re: SVM入門（九）松弛變量（續）

期待下一篇

我的自省09年評論于 2009-03-20 11:47 回復更多評論

# re: SVM入門（九）松弛變量（續）

能不能介紹一下非線性分類器

verygood 評論于 2009-03-21 23:36 回復更多評論

# re: SVM入門（九）松弛變量（續）[未登錄]

好文章，看了一下午SVM，看數學看的費勁，但收獲卻不比這九篇文章。博主的文章通俗幽默，深入淺出，贊！

lucky 評論于 2009-03-22 00:50 回復更多評論

# re: SVM入門（九）松弛變量（續）[未登錄]

既然SVM入門，線性分類器不能錯過，期待！

lucky 評論于 2009-03-22 01:04 回復更多評論

# re: SVM入門（九）松弛變量（續）

想了解svm解決多類問題的知識，期待中……

偉評論于 2009-03-23 13:20 回復更多評論

# re: SVM入門（九）松弛變量（續）

你的文章寫的非常好啊，對我的幫助很大，衷心的感謝你。
我會經常瀏覽你的博客，支持你能夠通過你的技術寫作，讓我們這些有志于自然語言理解，機器學習研究的熱心者一個容易的入門途徑。
謝謝。

順便問一句，　你的ＳＶＭ入門是否還有第十篇，好象還沒寫完吧。

alemist 評論于 2009-03-24 10:35 回復更多評論

# re: SVM入門（九）松弛變量（續）

@alemist
是的，還沒有寫完，呵呵。

Jasper 評論于 2009-03-24 15:32 回復更多評論

# re: SVM入門（九）松弛變量（續）[未登錄]

也贊！！！！！！！！！！！的確是通俗易懂，我看書看得頭暈腦漲的不知道它說什么，看這個很容易就明白了。謝謝樓主，另樓主可否推薦基本通俗易懂的書籍呢？
但不知下一篇什么時候還沒有出來。

yaoyao 評論于 2009-03-25 11:36 回復更多評論

# re: SVM入門（九）松弛變量（續）

通俗易懂，期待下一篇

SVM 評論于 2009-03-26 11:22 回復更多評論

# re: SVM入門（九）松弛變量（續）

博主的文章寫的非常好，深入淺出的。看書不明白的地方都明白了。
多謝

dfsanshi 評論于 2009-03-27 23:04 回復更多評論

# re: SVM入門（九）松弛變量（續）

感謝博主幽默的文筆,深入淺出的學術.讀來令我受益非淺!

康橋陽光評論于 2009-05-24 18:54 回復更多評論

# re: SVM入門（九）松弛變量（續）

能否請博主談談對核函數選擇方面的思考，謝謝！

康橋陽光評論于 2009-05-26 16:07 回復更多評論

# re: SVM入門（九）松弛變量（續）

非常感謝

咕嚕評論于 2009-07-28 17:29 回復更多評論

# re: SVM入門（九）松弛變量（續）

膜拜了文章后發現受益匪淺寫得真不錯啊哈哈

xiaoxin4 評論于 2009-08-03 14:49 回復更多評論

# re: SVM入門（九）松弛變量（續）

樓主是個很有耐心、思維很縝密的學者，娓娓道來，如行云流水般輕盈空靈，構思銜首帶尾，渾然天成，妙不可言！

SagittariusMaster 評論于 2009-09-14 18:17 回復更多評論

# re: SVM入門（九）松弛變量（續）

樓主對SVM的精妙解說使我想到了武當學院張三豐張教授獨創的太極拳招式，張教授把“用意不用力”這一武學要義演繹得淋漓盡致，與樓主的敘述風格有異曲同工之妙——從舒松柔和處入手，曲徑通幽，直入臻境，無比酣暢......

SagittariusMaster 評論于 2009-09-14 20:57 回復更多評論

# re: SVM入門（九）松弛變量（續）

我又忍不住還要夸贊樓主了，讀他寫的東西像讀古龍的《陸小鳳傳奇》，妙趣橫生，意味無窮，使人如癡如醉，忘乎所以。

SagittariusMaster 評論于 2009-09-14 21:06 回復更多評論

# re: SVM入門（九）松弛變量（續）

此文著實相當好，不可不贊～～

RomiO 評論于 2009-10-16 20:08 回復更多評論

# re: SVM入門（九）松弛變量（續）

不得不頂的文章，犀利

tayoto 評論于 2009-12-02 10:24 回復更多評論

# re: SVM入門（九）松弛變量（續）

很不錯

strang 評論于 2010-03-15 10:30 回復更多評論

# re: SVM入門（九）松弛變量（續）

繼續頂！

tq 評論于 2010-08-15 21:20 回復更多評論

# re: SVM入門（九）松弛變量（續）

博主現在不寫了么？

Erick 評論于 2010-09-08 16:16 回復更多評論

# re: SVM入門（九）松弛變量（續）[未登錄]

看你的文章讓我又有了很久沒有了的廢寢忘食，樂在其中的感覺，非常感謝。

echo 評論于 2011-03-17 17:35 回復更多評論

# re: SVM入門（九）松弛變量（續）

我對樓主的敬仰，有如滔滔江水，連綿不絕

fasle 評論于 2011-08-02 18:20 回復更多評論

# re: SVM入門（九）松弛變量（續）

好文章啊，讓人茅塞頓開

Belinda 評論于 2011-09-15 16:53 回復更多評論

# 為什么有時候會有兩個松弛變量？

為什么有時候會有兩個松弛變量？

muno1 評論于 2012-01-05 15:53 回復更多評論

# re: SVM入門（九）松弛變量（續）

看樓主的文章不僅很淺顯易懂，而且樓主很有幽默細胞，處處表現你的機智幽默，佩服~

guest 評論于 2013-11-19 21:51 回復更多評論

# re: SVM入門（九）松弛變量（續）

講解深入淺出，很好很好。
順便問一句，LZ是妹子么？

karl 評論于 2014-06-04 16:24 回復更多評論

# re: SVM入門（九）松弛變量（續）

樓主真乃神人也

ggsimida 評論于 2015-08-07 15:17 回復更多評論

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: 文本分類入門（番外篇）特征選擇與特征權重計算的區別 SVM入門（十）將SVM用于多類分類文本分類入門（十一）特征選擇方法之信息增益 SVM入門（九）松弛變量（續） SVM入門（八）松弛變量 SVM入門（七）為何需要核函數 SVM入門（六）線性分類器的求解——問題的轉化，直觀角度 SVM入門（五）線性分類器的求解——問題的描述Part2 SVM入門（四）線性分類器的求解——問題的描述Part1 SVM入門（一）至（三）Refresh

文章分類

搜索

SVM入門（九）松弛變量（續）

公告

常用鏈接

留言簿(64)

隨筆分類

隨筆檔案

文章分類

搜索

最新評論

閱讀排行榜

評論排行榜

Jasper's Java Jacal 嘉士伯的Java小屋
BlogJava \| 首頁 \| 發新隨筆 \| 發新文章 \| 聯系 \| 聚合 \| 管理	隨筆：51 文章：2 評論：717 引用：0