午夜精品网站,av资源网在线观看,国产一级在线

Jasper — Thu, 07 May 2009 16:32:00 GMT

�q�回是帮自己家小妞的�|�店做的店标,宣传什么的,所以风格相似恰恰是我想要的�?

�|�店的Logo。那大腿不是别�h的，正是韩国歌星宝儿……

她跟我说上面�q�张图最大的问题��在于太有夜店风��|��与她的店不符。不�q�用着用着�Q�她自己倒也喜欢上了�?br />

�q�个是刚出炉�?月新�Ƅ��预告�Q�照片里的�h可全是她……

Jasper 2009-05-08 00:32 发表评论

文本分类入门�Q�番外篇�Q�特征选择与特征权重计��的区别

Jasper — Sun, 19 Apr 2009 03:40:00 GMT

在文本分�cȝ��q�程中，特征�Q�也可以��单的理解�?#8220;�?#8221;�Q�从人类能够理解的�Ş式�{换�ؓ计算��够理解的形式�Ӟ��实际上经�q�了两步骤的量化——特征选择阶段的重要程度量化和��具体文本�{化�ؓ向量时的特征权重量化。初�ơ接触文本分�cȝ��人很�Ҏ(gu��)��h��q�两个步骤��用的�Ҏ(gu��)��和各自的目的�Q�因而我�l�常听到读者有�c�M��“如何使用TFIDF做特征选择”或�?#8220;卡方��验量化权重后每篇文章都一�?#8221;�{�等困惑�?/span>

文本分类本质上也是一个模式识别的问题�Q�因此我惛_��用一个更直观的例子来说说特征选择和权重量化到底各自是什么东西，当然�Q�一旦解释清楚，你马上就会觉得文本分�c�这东西实在白痴�Q�实在没什么技术含量，你也��׃��会再�l�箋看我的技术博客，不过我不担心�Q�因��Z��已经�t�上了更光明的道路（�W�）�Q�我高兴�q�来不及�?/span>

��x��通过指纹来识别一个�h的��n份，只看一个�h的指�U�，当然说不��Z��姓甚名谁�Q�识别的�q�程实际上是比对的过�E�，要与已有的指�U�库比较�Q�找出相同的�Q�或者说�怼��C��定程度的那一个�?/span>

首要的问题是�Q��h的指�U�太复杂�Q�包含太多的位置和几何�Ş�Ӟ��要完全重��C��个�h的指�U�，存储和计��都是大�ȝ��。因此第一步��L��一个特征选择的问题，我们把全人类的指�U�w��l�计一下，看看哪几个位�|�能够最好的区分不同的�h。显然不同的位置效果很不一��P��在有的位�|�上�Q�我的指�UҎ(gu��)��是什么�Ş�Ӟ��其他��Z��大都是这个�Ş�Ӟ��q�个位置��׃��h��区分度，或者说不具有表征性，或者说�Q�对分类问题来说�Q�它的重要程度低。这��L��位置我们��們֐�于在识别的时候根本不看它�Q�不考虑它�?/span>

那怎么看谁重要谁不重要呢？�q�就依赖于具体的选择�Ҏ(gu��)��如何来量化重要程度，对卡�Ҏ(gu��)��验和信息增益�q�类�Ҏ(gu��)��来说�Q�量化以后的得分��大的特征就��重要（也就是说�Q�有可能有些�Ҏ(gu��)��Q�是得分��小的越重要�Q��?/span>

比如说你�?/span>10个位�|�，他们的重要程度分别是�Q?/span>

1 2 3 4 5 6 7 8 9 10

�Q?/span>20�Q?/span>5�Q?/span>10�Q?/span>20�Q?/span>30�Q?/span>15�Q?/span>4�Q?/span>3�Q?/span>7�Q?/span> 3�Q?/span>

昄��W?/span>1�Q�第3�Q?/span>4�Q?/span>5�Q?/span>6个位�|�比其他位置更重要，而相对的�Q�第1个位�|�又比第3个位�|�更重要�?/span>

识别�Ӟ��我们只在那些重要的位�|�上采样。当今的指纹识别�pȝ��Q�大都只用到人指�U�的5个位�|�（惊讶么？只要5个位�|�的信息��可以区�?/span>60亿�h�Q�，�q?/span>5个位�|�就是经�q�特征选择�q�程而得以保留的�pȝ��特征集合。假设这个就是刚才的例子�Q�那么该集合应该是：

当然�Q�具体的�W?/span>3个位�|�是指纹中的哪个位置你自己��d��清楚�?/span>

��定了这5个位�|�之后，��可以把一个�h的指�UҎ(gu��)��到�q�个只有5个维度的�I�间中，我们��把他在5个位�|�上的几何�Ş状分别�{换成一个具体的��|��q�就是特征权重的计算。依据什么来转换�Q�就是你选择的特征权重量化方法，在文本分�c�M��Q�最常用的就�?/span>TFIDF�?/span>

我想一定是“权重“�q�个词误��g��所有�h�Q�让大家以�ؓTFIDF计算出的��g��表的是特征的重要�E�度�Q�其实完全不是。例如我们有一位男同学�Q�他的指�U�向量是�Q?/span>

�Q?/span>10�Q?/span>3�Q?/span>4�Q?/span>20�Q?/span>5�Q?/span>

你注意到他第1个位�|�的得分�Q?/span>10�Q�比�W?/span>3个位�|�的得分�Q?/span>3�Q�高�Q�那么能说第1个位�|�比�W?/span>3个位�|�重要么�Q�如果再有一位女同学�Q�她的指�U�向量是�Q?/span>

�Q?/span>10�Q?/span>20�Q?/span>4�Q?/span>20�Q?/span>5�Q?/span>

因此要记住，通过TFIDF计算一个特征的权重�Ӟ��该权重体现出的根本不是特征的重要�E�度�Q?/span>

那它代表什么？再看看两位同学的指纹�Q�放��C��P��

�Q?/span>10�Q?/span> 3�Q?/span>4�Q?/span>20�Q?/span>5�Q?/span>

�Q?/span>10�Q?/span>20�Q?/span>4�Q?/span>20�Q?/span>5�Q?/span>

在第三个位置上女同学的权重高于男同学�Q�这不代表该奛_��学在指纹的这个位�|�上�?#8220;优秀“�Q�毕竟，指纹�q�有什么优�U�不优�U�的分别么�Q�笑�Q�，也不代表她的�q�个位置比男同学的这个位�|�更重要�Q?/span>3�?/span>20�q�两个得分，仅仅代表他们�?#8221;不同“�?/span>

在文本分�c�M��也是如此�Q�比如我们的�pȝ��特征集合只有两个词：

�Q�经��，发展�Q?/span>

�q�两个词是��用卡�Ҏ(gu��)��验（特征选择�Q�选出来的�Q�有一��文章的向量形式�?/span>

�Q?/span>2�Q?/span>5�Q?/span>

另一��?/span>

�Q?/span>3�Q?/span>4�Q?/span>

�q�两个向量�Ş式就是用TFIDF��出来的�Q�很�Ҏ(gu��)��看出两篇文章不是同一��，��Z��么？因�ؓ他们的特征权重根本不一��P��所以说权重代表的是差别�Q�而不是优劣。想想你�?#8220;�l�济�q�个词在�W�二��文章中得分高，因此它在�W�二��文章中比在�W�一��文章中更重�?#8220;�Q�这句话代表什么意义呢�Q�你自己都不知道吧（�W�）�?/span>

所以，当再说�v使用TFIDF来计��特征权重时�Q�最好把“权重“�q�个字眼忘掉�Q�我们就把它说成计算得分好了�Q�甚�?#8221;得分“也不太好�Q�因��Z�h��M��不自觉的认�ؓ�Q�得分高的就更重要）�Q�或者就仅仅说成是量化�?/span>

如此�Q�你��再也不会拿TFIDF��d��特征选择了�?/span>

��?/span>Tips�Q��ؓ什么有的论文里��实使用�?/span>TFIDF作特征选择呢？

严格说来�q�不是不可以�Q�而且严格说来只要有一�U�方法能够从一堆特征中挑出��数的一些，它就可以叫做一�U�特征选择�Ҏ(gu��)��Q�就�q?#8220;随机选取一部分“都算是一�U�，而且效果�q�没有差到惊人的地步哦！�q�是可以分对一大半的哦�Q�所以有的�h��q��TFIDF的得分来把特征排排序�Q�取得分最大的几个�q�入�pȝ��特征集合�Q�效果也�q�行�Q�毕竟，�q�随机选取效果也都�q�行�Q�，怎么说呢�Q�他们愿意这么干��p��么干吧。就像咱国家非得实行户口制度�Q�这个制度说不出��M��道理�Q�也不见他带来�Q何好处，但不也没影响二十一世纪成�ؓ中国的世�U�么�Q�呵��c�?/span>

Jasper 2009-04-19 11:40 发表评论

Jasper — Sat, 18 Apr 2009 07:02:00 GMT

又小忙了几天。打��写一��澄清特征选择和特征权重计��中许多�Ҏ(gu��)��误解的问题的文章�Q�不知大家有没有兴趣�?

Jasper 2009-04-18 15:02 发表评论

SVM入门�Q�十�Q�将SVM用于多类分类

Jasper — Thu, 26 Mar 2009 06:30:00 GMT

�?SVM的那几张囑֏�以看出来�Q�SVM是一�U�典型的两类分类器，卛_��只回�{�属于正�c�还是负�cȝ��问题。而现实中要解决的问题�Q�往往是多�cȝ��问题�Q�少部分例外�Q�例如垃��N��件过滤，��只需要确�?#8220;�?#8221;�q�是“不是”垃圾邮�g�Q�，比如文本分类�Q�比如数字识别。如何由两类分类器得到多�c�d��c�d��Q�就是一个值得研究的问题�?

�q�以文本分类��Z��Q�现成的�Ҏ(gu��)��有很多，其中一�U�一��x��逸的�Ҏ(gu��)��Q�就是真的一�ơ性考虑所有样本，�q�求解一个多目标函数的优化问题，一�ơ性得到多个分�c�面�Q�就像下图这��P��

多个��^面把�I�间划分为多个区域，每个区域对应一个类别，�l�一��文章，看它落在哪个区域��q��道了它的分类�?

看�v来很��对不对�Q�只可惜�q�种��法�q�基本停留在�U�R��上，因�ؓ一�ơ性求解的�Ҏ(gu��)��计算量实在太大，大到无法实用的地步�?

�E�稍退一步，我们��׃��惛_��所�?#8220;一�c�d��其余”的方法，��是每次仍然解一个两�c�d��cȝ��问题。比如我们有5个类别，�W�一�ơ就把类�?的样本定为正��h��Q�其�?�Q?�Q?�Q?的样本合��h��定�ؓ负样本，�q�样得到一个两�c�d��c�d��Q�它能够指出一��文章是�q�是不是�W?�cȝ��Q�第二次我们把类�? 的样本定为正��h��Q�把1�Q?�Q?�Q?的样本合��h��定�ؓ负样本，得到一个分�c�d��Q�如此下去，我们可以得到5个这��L��两类分类器（��L��和类别的数目一��_��。到了有文章需要分�cȝ��时候，我们��拿着�q�篇文章挨个分类器的问：是属于你的么�Q�是属于你的么？哪个分类器点头说是了�Q�文章的�c�d��q��定了。这�U�方法的好处是每个优化问题的规模比较?y��u)��，而且分类的时候速度很快�Q�只需要调�?个分�c�d��q��道了�l�果�Q�。但有时也会出现两种很尴��的情况�Q�例如拿一��文章问了一圈，每一个分�c�d��都说它是属于它那一�cȝ��Q�或者每一个分�c�d��都说它不是它那一�cȝ��Q�前者叫分类重叠现象�Q�后者叫不可分类现象。分�c�重叠倒还好办�Q�随侉K��一个结果都不至于太��谱�Q�或者看看这��文章到各个��^面的距离�Q�哪个远��判�l�哪个。不可分�cȝ��象就着实难办了�Q�只能把它分�l�第6个类别了……更要命的是，本来各个�c�d��的样本数目是差不多的�Q�但“其余”的那一�c�L��本数��L��要数倍于正类�Q�因为它是除正类以外其他�c�d��的样本之和嘛�Q�，�q�就��Zؓ的造成了上一节所说的“数据集偏�?#8221;问题�?

因此我们�q�得再退一步，�q�是解两�c�d��c�问题，�q�是每次选一个类的样本作正类��h��Q�而负�c�L��本则变成只选一个类�Q�称�?#8220;一对一单挑”的方法，哦，不对�Q�没有单挑，��是“一对一”的方法，呵呵�Q�，�q�就避免了偏斜。因此过�E�就是算��样一些分�c�d��Q�第一个只回答“是第1�c�还是第2�c?#8221;�Q�第二个只回�{?#8220;是第1�c�还是第3�c?#8221;�Q�第三个只回�{?#8220;是第1�c�还是第4�c?#8221;�Q�如此下去，你也可以马上得出�Q�这��L��分类器应该有5 X 4/2=10个（通式是，如果有k个类别，则�ȝ��两类分类器数目�ؓk(k-1)/2�Q�。虽然分�c�d��的数目多了，但是在训�l�阶�D�（也就是算��些分�c�d��的分�c�d�^面时�Q�所用的��L��间却�?#8220;一�c�d��其余”�Ҏ(gu��)��很多，在真正用来分�cȝ��时候，把一��文章扔�l�所有分�c�d��Q�第一个分�c�d��会投��说它是“1”或�?#8220;2”�Q�第二个会说它是“1”或�?#8220;3”�Q�让每一个都投上自己的一��，最后统计票敎ͼ�如果�c�d��“1”得票最多，��判�q�篇文章属于�W?�c�R��这�U�方法显然也会有分类重叠的现象，但不会有不可分类现象�Q�因为��M��可能所有类别的��数都是0。看��h��够好么？其实不然�Q�想惛_��c�M��文章，我们调用了多��个分类器？10个，�q�还是类别数�?的时候，�c�d��数如果是1000�Q�要调用的分�c�d��数目会上升至�U?00,000个（�c�d��数的�q�x��量��Q�。这如何是好�Q?

看来我们必须再退一步，在分�cȝ��时候下功夫�Q�我们还是像一对一�Ҏ(gu��)��那样来训�l�，只是在对一��文章进行分�c�M��前，我们先按照下面图的样子来�l�织分类器（如你所见，�q�是一个有向无环图�Q�因此这�U�方法也叫做DAG SVM�Q?

�q�样在分�c�L��,我们��可以先问分�c�d��“1�?”�Q�意思是它能够回�{?#8220;是第1�c�还是第5�c?#8221;�Q�，如果它回�{?�Q�我们就往左走�Q�再�?#8220;2�?”�q�个分类器，如果它还说是“5”�Q�我们就�l�箋往左走�Q�这样一直问下去�Q�就可以得到分类�l�果。好处在哪？我们其实只调用了4个分�c�d��Q�如果类别数是k�Q�则只调用k-1个）�Q�分�c�速度飞快�Q�且没有分类重叠和不可分�cȝ��象！�~�点在哪�Q�假如最一开始的分类器回�{�错误（明明是类�?的文章，它说成了5�Q�，那么后面的分�c�d��是无论如何也无法�U�正它的错误的（因�ؓ后面的分�c�d��压根没有出现“1”�q�个�c�d��标签�Q�，其实对下面每一层的分类器都存在�q�种错误向下累积的现象。�?

不过不要被DAG�Ҏ(gu��)��的错误篏�U�吓倒，错误累积在一对其余和一对一�Ҏ(gu��)��中也都存在，DAG�Ҏ(gu��)��好于它们的地方就在于�Q�篏�U�的上限�Q�不��是大是��，��L��有定论的�Q�有理论证明。而一对其余和一对一�Ҏ(gu��)��中，��管每一个两�c�d��c�d��的泛化误差限是知道的�Q�但是合��h��做多�c�d��cȝ��时候，误差上界是多��，没�h知道�Q�这意味着准确率低�?也是有可能的�Q�这多让人郁闗��?

而且现在DAG�Ҏ(gu��)��根节点的选取�Q�也��是如何选第一个参与分�cȝ��分类器）�Q�也有一些方法可以改善整体效果，我们��d��望根节点��犯错误为好�Q�因此参与第一�ơ分�cȝ��两个�c�d��Q�最好是差别特别特别大，大到以至于不太可能把他们分错�Q�或者我们就��d��在两�c�d��c�M��正确率最高的那个分类器作根节点，或者我们让两类分类器在分类的时候，不光输出�c�d��的标�{�，�q�输��Z��个类�?#8220;�|�信�?#8221;的东东，当它对自��q��l�果不太自信的时候，我们��׃��光按照它的输��Q�把它旁边的那条路也��C��赎ͼ��{�等�?

大Tips�Q�SVM的计��复杂度

使用SVM�q�行分类的时候，实际上是训练和分�c�M��个完全不同的�q�程�Q�因而讨论复杂度��׃��能一概而论�Q�我们这里所说的主要是训�l�阶�D늚�复杂度，卌��那个二次规划问题的复杂度。对�q�个问题的解�Q�基本上要划分�ؓ两大块，解析解和数��D��?

解析解就是理��Z��的解�Q�它的�Ş式是表达式，因此它是�_��的，一个问题只要有解（无解的问题还跟着掺和什么呀�Q�哈哈）�Q�那它的解析解是一定存在的。当然存在是一回事�Q�能够解出来�Q�或者可以在可以承受的时间范围内解出来，��是另一回事了。对SVM来说�Q�求得解析解的时间复杂度最坏可以达到O(N_sv³)�Q�其中N_sv是支持向量的个数�Q�而虽然没有固定的比例�Q�但支持向量的个数多��也和训�l�集的大��有兟�?

数��D��是可以使用的解�Q�是一个一个的敎ͼ�往往都是�q�似解。求数��D��的过�E�非常像�I��D法，从一个数开始，试一试它当解效果怎样�Q�不满��一定条�Ӟ��叫做停机条�g�Q�就是满��个以后就认�ؓ解��够精��了�Q�不需要��l�算下去了）��p��下一个，当然下一个数不是乱选的�Q�也有一定章法可循。有的算法，每次只尝试一个数�Q�有的就��试多个�Q�而且找下一个数字（或下一�l�数�Q�的�Ҏ(gu��)��也各不相同，停机条�g也各不相同，最�l�得到的解精度也各不相同�Q�可见对求数��D��的复杂度的讨��Z��能脱开具体的算法�?

一个具体的��法�Q�Bunch-Kaufman训练��法�Q�典型的旉��复杂度在O(N_sv³+LN_sv²+dLN_sv)和O(dL²)之间�Q�其中N_sv是支持向量的个数�Q�L是训�l�集��h��的个敎ͼ�d是每个样本的�l�数�Q�原始的�l�数�Q�没有经�q�向高维�I�间映射之前的维敎ͼ�。复杂度会有变化�Q�是因�ؓ它不光跟输入问题的规模有养I��不光和样本的数量�Q�维数有养I��Q�也和问题最�l�的解有养I��x��持向量有养I��Q�如果支持向量比较少�Q�过�E�会快很多，如果支持向量很多�Q�接�q�于��h��的数量，��׃��产生O(dL²)�q�个十分�p�糕的结果（�l?0�Q?00个样本，每个��h��1000�l�_��基本��׃��用算了，��不出来�Q�呵呵，而这�U�输入规模对文本分类来说太正�怺��Q��?

�q�样再回头看��׃��明白��Z��么一对一�Ҏ(gu��)��管要训�l�的两类分类器数量多�Q�但��L��间实际上比一对其余方法要��了�Q�因��Z��对其余方法每�ơ训�l�都考虑了所有样本（只是每次把不同的部分划分为正�c�L��者负�c�而已�Q?span style="font-family: ; font-size: 10.5pt; mso-bidi-font-family: 'Times New Roman'; mso-bidi-font-size: 11.0pt; mso-ascii-font-family: Calibri; mso-hansi-font-family: Calibri; mso-font-kerning: 1.0pt; mso-ansi-language: EN-US; mso-fareast-language: ZH-CN; mso-bidi-language: AR-SA">�Q�自然慢上很多�?/span>

Jasper 2009-03-26 14:30 发表评论

Jasper — Tue, 24 Mar 2009 06:54:00 GMT

前文提到�q�，除了开�Ҏ(gu��)��验（CHI�Q�以外，信息增益�Q�IG�Q�Information Gain�Q�也是很有效的特征选择�Ҏ(gu��)��。但凡是特征选择�Q��L��在将特征的重要程度量化之后再�q�行选择�Q�而如何量化特征的重要性，��成了各�U�方法间最大的不同。开�Ҏ(gu��)��验中使用特征与类别间的关联性来�q�行�q�个量化�Q�关联性越强，特征得分��高�Q�该特征��应该被保留�?

在信息增益中�Q�重要性的衡量标准��是看特征能够�ؓ分类�pȝ��带来多少信息�Q�带来的信息��多�Q�该特征��重要�?

因此先回忆一下信息论中有关信息量�Q�就�?#8220;�?#8221;�Q�的定义。说有这么一个变量X�Q�它可能的取值有n多种�Q�分别是x₁�Q�x₂�Q?#8230;…�Q�x_n�Q�每一�U�取到的概率分别是P₁�Q�P₂�Q?#8230;…�Q�P_n�Q�那么X的熵��定义�ؓ�Q?

意思就是一个变量可能的变化��多�Q�反而跟变量具体的取值没有�Q何关�p�，只和值的�U�类多少以及发生概率有关�Q�，它携带的信息量就��大�Q�因此我一直觉得我们的政策法规信息量非常大�Q�因为它变化很多�Q�基本朝令夕改，�W�）�?

对分�cȝ��l�来��_��c�d��C是变量，它可能的取值是C₁�Q�C₂�Q?#8230;…�Q�C_n�Q�而每一个类别出现的概率是P(C₁)�Q�P(C₂)�Q?#8230;…�Q�P(C_n)�Q�因此n��是�c�d��的��L��。此时分�cȝ��l�的熵就可以表示为：

有同学说不好理解呀�Q�这��h��好了，文本分类�pȝ��的作用就是输��Z��个表�C�文本属于哪个类别的��|��而这个值可能是C₁�Q�C₂�Q?#8230;…�Q�C_n�Q�因此这个值所携带的信息量��是上式中的�q�么多�?

信息增益是针对一个一个的特征而言的，��是看一个特征t�Q�系�l�有它和没它的时候信息量各是多少�Q�两者的差值就是这个特征给�pȝ��带来的信息量�Q�即增益。系�l�含有特征t的时候信息量很好计算�Q�就是刚才的式子�Q�它表示的是包含所有特征时�pȝ��的信息量�?

问题是当�pȝ��不包含t�Ӟ��信息量如何计��？我们换个角度想问题，把系�l�要做的事情惌��成这��P��说教室里有很多��位，学生们每�ơ上课进来的时候可以随便坐�Q�因而变化是很大的（无数�U�可能的座次情况�Q�；但是现在有一个��位，看黑板很清楚�Q�听老师讲也很清楚，于是校长的小舅子的姐姐的奛_��托关�p�（真辗转啊�Q�，把这个��位定下来了，每次只能�l�她坐，别�h不行�Q�此时情冉|��样�Q�对于��ơ的可能情况来说�Q�我们很�Ҏ(gu��)��看出以下两种情况是等��L��Q�（1�Q�教室里没有�q�个座位�Q�（2�Q�教室里虽然有这个��位，但其他�h不能坐（因�ؓ反正它也不能参与到变化中来，它是不变的）�?

对应到我们的�pȝ��中，��是下面的等��P��Q?�Q�系�l�不包含特征t�Q�（2�Q�系�l�虽然包含特征t�Q�但是t已经固定了，不能变化�?

我们计算分类�pȝ��不包含特征t的时候，��׃��用情况（2�Q�来代替�Q�就是计��当一个特征t不能变化�Ӟ��pȝ��的信息量是多��。这个信息量其实也有专门的名�U�ͼ��叫�?#8220;条�g�?#8221;�Q�条件嘛�Q�自然就是指“t已经固定“�q�个条�g�?

但是问题接踵而至�Q�例如一个特征X�Q�它可能的取值有n多种�Q�x₁�Q�x₂�Q?#8230;…�Q�x_n�Q�，当计��条件熵而需要把它固定的时候，要把它固定在哪一个��g��呢？�{�案是每一�U�可能都要固定一下，计算n个��|��然后取均值才是条件熵。而取均��g��不是��单的加一加然后除以n�Q�而是要用每个值出现的概率来算�q�_��Q�简单理解，��是一个值出现的可能性比较大�Q�固定在它上面时��出来的信息量占的比重就要多一些）�?

因此有这样两个条件熵的表辑ּ��Q?

�q�是指特征X被固定�ؓ值x_i时的条�g熵，

�q�是指特征X被固定时的条件熵�Q�注意与上式在意义上的区别。从刚才计算均值的讨论可以看出来，�W�二个式子与�W�一个式子的关系��是�Q?/p>

具体到我们文本分�cȝ��l�中的特征t�Q�t有几个可能的值呢�Q�注意t是指一个固定的特征�Q�比如他��是指关键词“�l�济”或�?#8220;体育”�Q�当我们说特�?#8220;�l�济”可能的取值时�Q�实际上只有两个�Q?#8220;�l�济”要么出现�Q�要么不出现。一般的�Q�t的取值只有t�Q�代表t出现�Q�和�Q�代表t不出玎ͼ��Q�注意系�l�包含t但t 不出��C��pȝ��Ҏ(gu��)��不包含t可是两回事�?

因此固定t时系�l�的条�g熵就有了�Q��ؓ了区别t出现时的�W�号与特征t本��n的符��P��我们用T代表特征�Q�而用t代表T出现�Q�那么：

与刚才的式子对照一下，含义很清楚对吧，P(t)��是T出现的概率，��是T不出现的概率。这个式子可以进一步展开�Q�其中的

另一半就可以展开为：

因此特征T�l�系�l�带来的信息增益��可以写成系�l�原本的熵与固定特征T后的条�g熵之差：

公式中的东西看上��d��多，其实也都很好计算。比如P(C_i)�Q�表�C�类别C_i出现的概率，其实只要�?除以�c�d��L��得��C��Q�这是说你��^�{�的看待每个�c�d��而忽略它们的大小时这��L��Q�如果考虑了大��就要把大小的媄响加�q�去�Q�。再比如P(t)�Q�就是特征T出现的概率，只要用出现过T的文档数除以��L��档数��可以了�Q�再比如P(C_i|t)表示出现T的时候，�c�d��C_i出现的概率，只要用出��C��T�q�且属于�c�d��C_i的文档数除以出现了T的文档数��可以了�?

从以上讨��Z��可以看出�Q�信息增益也是考虑了特征出现和不出��C��U�情况，与开�Ҏ(gu��)��验一��P��是比较全面的�Q�因而效果不错。但信息增益最大的问题�q�在于它只能考察特征�Ҏ(gu��)��个系�l�的贡献�Q�而不能具体到某个�c�d��上，�q�就使得它只适合用来做所�?#8220;全局”的特征选择�Q�指所有的�c�都使用相同的特征集合）�Q�而无法做“本地”的特征选择�Q�每个类别有自己的特征集合，因�ؓ有的词，对这个类别很有区分度�Q�对另一个类别则无��轻重�Q��?

看看�Q�导出的�q�程其实很简单，没有什么神�U�的对不寏V��可有的学术论文里就喜欢把这�U�本来很直白的东西写得很晦�ӆ�Q�仿�?j��ng)只有读者看不懂才是作者的真正成功�?

�׃��是新一代的学者，�׃��没有知识不怕被别�h看出来，�׃��有知识也不怕教�l�别人。所以咱都把事情说简单点�Q�说明白点，大家好，才是真的好�?

Jasper 2009-03-24 14:54 发表评论

SVM入门�Q�九(ji��)�Q�松弛变量（�l�）

Jasper — Tue, 17 Mar 2009 12:04:00 GMT

接下来要说的东西其实不是村ּ�变量本��n�Q�但�׃��是�ؓ了��用松弛变量才引入的，因此攑֜��q�里也算合适，那就是惩�|�因子C。回头看一眼引入了村ּ�变量以后的优化问题：

注意其中C的位�|�，也可以回想一下C所��L��作用�Q�表征你有多么重视离��点�Q�C��大��重视，��不想丢掉它们）。这个式子是以前做SVM的�h写的�Q�大家也��p��么用�Q�但没有��M��规定说必��d��所有的村ּ�变量都��用同一个惩�|�因子，我们完全可以�l�每一个离��点都��用不同的C�Q�这时就意味着你对每个��h��的重视程度都不一��P��有些��h��丢了也就丢了�Q�错了也��错了，�q�些��q��一个比较小的C�Q�而有些样本很重要�Q�决不能分类错误�Q�比如中央下辄��文�g啥的�Q�笑�Q�，��q��一个很大的C�?

当然实际使用的时候�ƈ没有�q�么极端�Q�但一�U�很常用的变形可以用来解军_��c�问题中��h��?#8220;偏斜”问题�?

先来说说��h��的偏斜问题，也叫数据集偏斜（unbalanced�Q�，它指的是参与分类的两个类别（也可以指多个�c�d��Q�样本数量差异很大。比如说正类�?0�Q?00个样本，而负�c�d��l�了100个，�q�会引�v的问题显而易见，可以看看下面的图�Q?/p>

方�Ş的点是负�c�R��H�Q�H₁�Q�H₂是根据给的样本算出来的分�c�面�Q�由于负�cȝ��h��很少很少�Q�所以有一些本来是负类的样本点没有提供�Q�比如图中两个灰色的方�Ş点，如果�q�两个点有提供的话，那算出来的分�c�面应该是H’�Q�H₂’和H₁�Q�他们显然和之前的结果有出入�Q�实际上负类�l�的��h��点越多，��p��Ҏ(gu��)��出现在灰色点附近的点�Q�我们算出的�l�果也就��接�q�于真实的分�c�面。但现在�׃��偏斜的现象存在，使得数量多的正类可以把分�c�面向负�cȝ��方向“�?#8221;�Q�因而媄响了�l�果的准��性�?

对付数据集偏斜问题的�Ҏ(gu��)��之一��是在惩�|�因子上作文章，惛_��大家也猜��C��Q�那��是�l�样本数量少的负�c�L��大的惩罚因子�Q�表�C�我们重视这部分��h��Q�本来数量就��，再抛弃一些，那�h家负�c�还�z�M��z�M��Q�，因此我们的目标函��C��因松弛变量而损��q��部分��变成了�Q?

其中i=1…p都是正样本，j=p+1…p+q都是负样本。libSVM�q�个��法包在解决偏斜问题的时候用的就是这�U�方法�?

那C₊和C_-怎么��定呢？它们的大��是试出来的�Q�参数调优）�Q�但是他们的比例可以有些�Ҏ(gu��)��来确定。咱们先假定说C₊�?�q�么大，那确定C_-的一个很直观的方法就是��用两�c�L��本数的比来算�Q�对应到刚才丄��例子�Q�C_-��可以定�?00�q�么大（因�ؓ10�Q?00�Q?00=100�Q?嘛）�?

但是�q�样�q�不够好�Q�回看刚才的图，你会发现正类之所以可�?#8220;��”负类�Q�其实�ƈ不是因�ؓ负类��h��，真实的原因是负类的样本分布的不够�q�（没扩充到负类本应该有的区域）。说一个具体点的例子，现在想给政治�c�d��体育�cȝ��文章做分�c�，政治�c�L��章很多，而体育类只提供了几篇关于��球的文章，�q�时分类会明昑ց�向于政治�c�，如果要给体育�c�L��章增加样本，但增加的��h��仍然全都是关于篮球的�Q�也��是��_��没有��球�Q�排球，赛�R�Q�游泳等�{�）�Q�那�l�果会怎样呢？虽然体育�c�L��章在数量上可以达��C��政治�c�M��样多�Q�但�q�于集中了，�l�果仍会偏向于政�ȝ��Q�所以给C₊和C_-��定比例更好的方法应该是衡量他们分布的程度。比如可以算��他们在�I�间中占据了多大的体�U�，例如�l�负�c�L��一个超球——就是高�l�空间里的球啦——它可以包含所有负�cȝ��h��Q�再�l�正�c�L��一个，比比两个球的半径�Q�就可以大致��定分布的情��c��显然半径大的分布就比较�q�，��q��一点的惩罚因子�?

但是�q�样�q�不够好�Q�因为有的类别样本确实很集中�Q�这不是提供的样本数量多��的问题�Q�这是类别本�w�的特征�Q�就是某些话题涉及的面很�H�，例如计算机类的文章就明显不如文化�cȝ��文章那么“天马行空”�Q�，�q�个时候即便超球的半径差异很大�Q�也不应该赋予两个类别不同的惩罚因子�?

看到�q�里读者一定疯了，因�ؓ说来说去�Q�这岂不成了一个解决不了的问题�Q�然而事实如此，完全的方法是没有的，�Ҏ(gu��)��需要，选择实现��单又合用的就好（例如libSVM��q��接��用样本数量的比）�?

Jasper 2009-03-17 20:04 发表评论

Jasper — Sat, 14 Mar 2009 16:57:00 GMT

现在我们已经把一个本来线性不可分的文本分�c�问题，通过映射到高�l�空间而变成了�U�性可分的。就像下图这��P��

圆�Ş和方形的点各有成千上万个�Q�毕竟，�q�就是我们训�l�集中文档的数量嘛，当然很大了）。现在想象我们有另一个训�l�集�Q�只比原先这个训�l�集多了一��文章，映射到高�l�空间以后（当然�Q�也使用了相同的核函敎ͼ��Q�也��多了一个样本点�Q�但是这个样本的位置是这��L��Q?/p>

��是图中黄色那个点，它是方�Ş的，因而它是负�cȝ��一个样本，�q�单独的一个样本，使得原本�U�性可分的问题变成了线性不可分的。这��L��似的问题�Q�仅有少数点�U�性不可分�Q�叫�?#8220;�q�似�U�性可�?#8221;的问题�?

以我们�h�cȝ��常识来判断，说有一万个炚w��W�合某种规律�Q�因而线性可分）�Q�有一个点不符合，那这一个点是否��׃��表了分类规则中我们没有考虑到的斚w��呢（因而规则应该�ؓ它而做��Z��改）�Q?

其实我们会觉得，更有可能的是�Q�这个样本点压根��是错误�Q�是噪声�Q�是提供训练集的同学人工分类时一打瞌睡错放进�ȝ��。所以我们会��单的忽略�q�个��h��点，仍然使用原来的分�c�d��Q�其效果丝毫不受影响�?

但这�U�对噪声的容错性是人的思维带来的，我们的程序可没有。由于我们原本的优化问题的表辑ּ�中，��实要考虑所有的��h��点（不能忽略某一个，因�ؓ�E�序它怎么知道该忽略哪一个呢�Q�）�Q�在此基��上寻找正负类之间的最大几何间隔，而几何间隔本�w�代表的是距��，是非负的�Q�像上面�q�种有噪声的情况会��得整个问题无解。这�U�解法其实也叫做“��间�?#8221;分类法，因�ؓ他硬性的要求所有样本点都满��_��分类�q�面间的距离必须大于某个倹{�?

因此�׃��面的例子中也可以看出�Q�硬间隔的分�c�L��其结果容易受��数点的控制�Q�这是很危险的（��管有句话说真理��L��掌握在少��C�h手中�Q�但那不�q�是那一��撮��以自慰的词句�|�了�Q�咱�q�是得民主）�?

但解��x��法也很明显，��是仿照人的思�\�Q�允�怸�些点到分�c�d�^面的距离不满��_��先的要求。由于不同的训练集各点的间距��度不太一��P��因此用间隔（而不是几何间隔）来衡量有利于我们表达形式的简�z�。我们原先对��h��点的要求是：

意思是说离分类面最�q�的��h��点函数间隔也要比1大。如果要引入定w��性，��q��1�q�个��性的阈值加一个松弛变量，卛_��?/p>

因�ؓ村ּ�变量是非负的�Q�因此最�l�的�l�果是要求间隔可以比1��。但是当某些点出现这�U�间隔比1��的情况�Ӟ��q�些点也叫离��点�Q�，意味着我们攑ּ�了对�q�些点的�_��分类�Q�而这�Ҏ(gu��)��们的分类器来说是�U�损失。但是放弃这些点也带来了好处�Q�那��是使分�c�面不必向这些点的方向移动，因而可以得到更大的几何间隔�Q�在低维�I�间看来�Q�分�c�边界也更��^滑）。显然我们必��L��衡这�U�损失和好处。好处很明显�Q�我们得到的分类间隔��大�Q�好处就��多。回��我们原始的��间隔分�c�d��应的优化问题�Q?/p>

||w||²��是我们的目标函敎ͼ�当然�p�L��可有可无�Q�，希望它越��越好，因而损失就必然是一个能使之变大的量�Q�能使它变小��׃��叫损�׃��Q�我们本来就希望目标函数��D��越好）。那如何来衡量损失，有两�U�常用的方式�Q�有人喜�Ƣ用

而有人喜�Ƣ用

其中l都是��h��的数目。两�U�方法没有大的区别。如果选择了第一�U�，得到的方法的��叫做二阶��Y间隔分类器，�W�二�U�就叫做一阶��Y间隔分类器。把损失加入到目标函数里的时候，��需要一�?span style="color: #5f48ff;">惩罚因子�Q�cost�Q�也��是libSVM的诸多参��C��的C�Q�，原来的优化问题就变成了下面这��P��

�q�个式子有这么几点要注意�Q?

一是�ƈ非所有的��h��炚w��有一个松弛变量与其对应。实际上只有“��ȝ��?#8221;才有�Q�或者也可以�q�么看，所有没��ȝ��的点村ּ�变量都等�?�Q�对负类来说�Q�离��点��是在前面图中，跑到H2右侧的那些负��h��点，�Ҏ(gu��)��c�L��_��是跑到H1左侧的那些正��h��点）�?

二是村ּ�变量的值实际上标示��Z��对应的点到底��ȝ��有多�q�，��D��大，点就��远�?

三是惩罚因子C军_��了你有多重视��ȝ��点带来的损失�Q�显然当所有离��点的松弛变量的和一定时�Q�你定的C��大�Q�对目标函数的损�׃��大�Q�此时就暗示着你非�怸�愿意攑ּ��q�些��ȝ��点，最极端的情冉|��你把C定�ؓ无限大，�q�样只要�E�有一个点��ȝ��Q�目标函数的值马上变成无限大�Q�马上让问题变成无解�Q�这��退化成了硬间隔问题�?

四是惩罚因子C�?/span>是一个变量，整个优化问题在解的时候，C是一个你必须事先指定的��|��指定�q�个��g��后，解一下，得到一个分�c�d��Q�然后用��试数据看看�l�果怎么��P��如果不够好，换一个C的��|��再解一�ơ优化问题，得到另一个分�c�d��Q�再看看效果�Q�如此就是一个参数寻优的�q�程�Q�但�q�和优化问题本��n决不是一回事�Q�优化问题在解的�q�程中，C一直是定��|��要记住�?

五是��管加了村ּ�变量�q�么一��_��但这个优化问题仍然是一个优化问题（汗，�q�不废话么）�Q�解它的�q�程比�v原始的硬间隔问题来说�Q�没有�Q何更加特�D�的地方�?

从大的方面说优化问题解的�q�程�Q�就是先试着��定一下w�Q�也��是��定了前面图中的三条直线�Q�这时看看间隔有多大�Q�又有多��点��ȝ��Q�把目标函数的值算一��，再换一�l�三条直�U�（你可以看刎ͼ�分类的直�U�位�|�如果移动了�Q�有些原来离��的点会变得不再��ȝ��Q�而有的本来不��ȝ��的点会变成离��点�Q�，再把目标函数的值算一��，如此往复（�q�代�Q�，直到最�l�找到目标函数最��时的w�?

啰嗦了这么多�Q�读者一定可以马上自己�ȝ��出来�Q�松弛变量也��是个解决线性不可分问题的方法�Ş了，但是回想一下，核函数的引入不也是�ؓ了解决线性不可分的问题么�Q��ؓ什么要��Z��一个问题��用两�U�方法呢�Q?

其实两者还有微妙的不同。一般的�q�程应该是这��P��q�以文本分类��Z��。在原始的低�l�空间中�Q�样本相当的不可分，无论你怎么扑ֈ��c�d�^面，��M��有大量的��ȝ��点，此时用核函数向高�l�空间映��一下，虽然�l�果仍然是不可分的，但比原始�I�间里的要更加接�q�线性可分的状态（��是辑ֈ�了近似线性可分的状态）�Q�此时再用松弛变量处理那些少�?#8220;冥顽不化”的离��点�Q�就��单有效得多啦�?

本节中的�Q�式1�Q�也��实是支持向量机最最常用的�Ş式。至此一个比较完整的支持向量机框架就有了�Q�简单说来，支持向量机就是��用了核函数的软间隔线性分�c�L��?

下一节会说说村ּ�变量剩下的一点点东西�Q�顺便搞个读者调查，看看大家�q�想侃侃SVM的哪些方面�?

Jasper 2009-03-15 00:57 发表评论

SVM入门�Q�七�Q��ؓ何需要核函数

Jasper — Fri, 06 Mar 2009 10:36:00 GMT

生存�Q�还是毁灭？——哈姆雷�?

可分�Q�还是不可分�Q�——支持向量机

之前一直在讨论的线性分�c�d��,器如其名�Q�汗�Q�这是什么说法啊�Q�，只能对线性可分的��h��做处理。如果提供的��h��U�性不可分�Q�结果很��单，�U�性分�c�d��的求解程序会无限循环�Q�永�q�也解不出来。这必然使得它的适用范围大大�~�小�Q�而它的很多优�Ҏ(gu��)��们实在不原意攑ּ��Q�怎么办呢�Q�是否有某种�Ҏ(gu��)��Q�让�U�性不可分的数据变得线性可分呢�Q?

有！其思想说来也简单，来用一个二�l��^面中的分�c�问题作例子�Q�你一看就会明白。事先声明，下面�q�个例子是网�l�早��有的，我一时找不到原作者的正确信息�Q�在此借用�Q��ƈ加进了我自己的解说而已�?

例子是下面这张图�Q?

我们把横轴上端点a和b之间�U�色部分里的所有点定�ؓ正类�Q�两边的黑色部分里的点定��c�R��试问能扑ֈ�一个线性函数把两类正确分开么？不能�Q�因��Z��l�空间里的线性函数就是指直线�Q�显然找不到�W�合条�g的直�Uѝ�?

但我们可以找��C��条曲�U�，例如下面�q�一条：

昄��通过点在�q�条曲线的上方还是下方就可以判断�Ҏ(gu��)��属的�c�d��Q�你在横轴上随便找一点，��算�q�一点的函数��|��会发现负�cȝ��点函数��g��定比0大，而正�cȝ��一定比0��）。这条曲�U�就是我们熟知的二次曲线�Q�它的函数表辑ּ�可以写�ؓ�Q?

问题只是它不是一个线性函敎ͼ�但是�Q�下面要注意看了�Q�新��Z��个向量y和a�Q?

�q�样g(x)��可以�{化�ؓf(y)=�Q�你可以把y和a分别回带一下，看看�{�不�{�于原来的g(x)。用内积的�Ş式写你可能看不太清楚�Q�实际上f(y)的�Ş式就是：

g(x)=f(y)=ay

在�Q意维度的�I�间中，�q�种形式的函数都是一个线性函敎ͼ�只不�q�其中的a和y都是多维向量�|�了�Q�，因�ؓ自变量y的次��C��大于1�?

看出妙在哪了么？原来在二�l�空间中一个线性不可分的问题，映射到四�l�空间后�Q�变成了�U�性可分的�Q�因此这也�Ş成了我们最初想解决�U�性不可分问题的基本思�\——向高维�I�间转化�Q��其变得线性可分�?

而�{化最关键的部分就在于扑ֈ�x到y的映��方法。遗憄��是，如何扑ֈ��q�个映射�Q�没有系�l�性的�Ҏ(gu��)��Q�也��是��_��U�靠猜和凑）。具体到我们的文本分�c�问题，文本被表�C�Zؓ上千�l�的向量�Q�即使维数已�l�如此之高，也常常是�U�性不可分的，�q�要向更高的�I�间转化。其中的隑ֺ�可想而知�?/p>

��Tips:��Z��么说f(y)=ay是四�l�空间里的函�?

大家可能一时没看明白。回想一下我们二�l�空间里的函数定�?/span>
g(x)=ax+b
变量x是一�l�的�Q��ؓ什么说它是二维�I�间里的函数呢？因�ؓ�q�有一个变量我们没写出来，它的完整形式其实�?/span>
y=g(x)=ax+b
�?br /> y=ax+b
看看�Q�有几个变量�Q�两个。那是几�l�空间的函数�Q�（作者五岁的弟弟�{�：五维的。作者：……�Q?/span>
再看�?br /> f(y)=ay
里面的y是三�l�的变量�Q�那f(y)是几�l�空间里的函敎ͼ��Q�作者五岁的弟弟�{�：�q�是五维的。作者：……�Q?br />

用一个具体文本分�cȝ��例子来看看这�U�向高维�I�间映射从而分�cȝ��Ҏ(gu��)��如何�q�作�Q�想象一下，我们文本分类问题的原始空间是1000�l�的�Q�即每个要被分类的文档被表示��Z��?000�l�的向量�Q�，在这个维度上问题是线性不可分的。现在我们有一�?000�l�空间里的线性函�?

f(x^’)=’,x^’>+b

注意向量的右上角有个 ’哦。它能够��原问题变得可分。式中的 w^’和x^’都是2000�l�的向量�Q�只不过w^’是定��|��而x^’是变量（好吧,严格说来�q�个函数�?001�l�的,哈哈�Q�，现在我们的输入呢�Q�是一�?000�l�的向量x�Q�分�cȝ��q�程是先把x变换�?000�l�的向量x^’�Q�然后求�q�个变换后的向量x^’与向量w^’的内�U�，再把�q�个内积的值和b相加�Q�就得到了结果，看结果大于阈��D��是小于阈值就得到了分�cȝ��果�?

你发��C��什么？我们其实只关心那个高�l�空间里内积的��|��那个值算出来了，分类�l�果��q��出来了。而从理论上说�Q?x^’是经由x变换来的�Q�因此广义上可以把它叫做x的函敎ͼ�有一个x�Q�就��定了一个x^’�Q�对吧，��定不出�W�二个）�Q�而w^’是常量，它是一个低�l�空间里的常量w�l�过变换得到的，所以给了一个w 和x的��|��有一个确定的f(x^’)��g��其对应。这让我们��惻I��是否能有�q�样一�U�函数K(w,x),他接受低�l�空间的输入��|��却能��出高维�I�间的内�U��?lt;w^’,x^’>�Q?

如果有这��L��函数�Q�那么当�l�了一个低�l�空间的输入x以后�Q?

g(x)=K(w,x)+b

f(x^’)=’,x^’>+b

�q�两个函数的计算�l�果��完全一��P��我们也就用不着费力��N��个映��关�p�，直接拿低�l�的输入往g(x)里面代就可以了（再次提醒�Q�这回的g(x)��׃��是线性函数啦�Q�因��Z��不能保证K(w,x)�q�个表达式里的x�ơ数不高�?哦）�?

万幸的是�Q�这��L��K(w,x)��实存在�Q�发现凡是我们�h�c�能解决的问题，大都是��y得不能再巧，�Ҏ(gu��)��得不能再�Ҏ(gu��)��的问题，��L��恰好有些能投机取巧的地方才能解决�Q�由此感��C�h�cȝ��渺小�Q�，它被�U�C��核函�?/span>�Q�核�Q�kernel�Q�，而且�q�不止一个，事实上，只要是满��了Mercer条�g的函敎ͼ�都可以作为核函数。核函数的基本作用就是接受两个低�l�空间里的向量，能够计算出经�q�某个变换后在高�l�空间里的向量内�U�倹{��几个比较常用的核函敎ͼ�俄，教课书里都列�q�，我就不敲了（懒！�Q��?

回想我们上节说的求一个线性分�c�d��Q�它的�Ş式应该是�Q?

现在�q�个��是高维�I�间里的�U�性函敎ͼ��Z��区别低维和高�l�空间里的函数和向量�Q�我改了函数的名字，�q�且�l�w和x都加上了 ’�Q�，我们��可以用一个低�l�空间里的函敎ͼ�再一�ơ的�Q�这个低�l�空间里的函数就不再是线性的啦）来代替，

又发��C��么了�Q�f(x’) 和g(x)里的α�Q�y�Q�b全都是一样一��L��Q�这��是��_��管�l�的问题是线性不可分的，但是我们��q��当它是线性问题来求解�Q�只不过求解�q�程中，凡是要求内积的时候就用你选定的核函数来算。这��h��出来�?#945;再和你选定的核函数一�l�合�Q�就得到分类器啦�Q?

明白了以上这些，会自然的问接下来两个问题�Q?

1�Q?既然有很多的核函敎ͼ�针对具体问题该怎么选择�Q?

2�Q?如果使用核函数向高维�I�间映射后，问题仍然是线性不可分的，那怎么办？

�W�一个问题现在就可以回答你：�Ҏ(gu��)��函数的选择�Q�现在还�~�Z��指导原则�Q�各�U�实验的观察�l�果�Q�不光是文本分类�Q�的��表明，某些问题用某些核函数效果很好�Q�用另一些就很差�Q�但是一般来�Ԍ��径向基核函数是不会出太大偏差的一�U�，首选。（我做文本分类�pȝ��的时候，使用径向基核函数�Q�没有参数调优的情况下，�l�大部分�c�d��的准��和召回都在85%以上�Q�可见。虽然libSVM的作者林��Z��认�ؓ文本分类用线性核函数效果更佳�Q�待考证�Q?

对第二个问题的解军_��引出了我们下一节的主题�Q�松弛变量�?

Jasper 2009-03-06 18:36 发表评论

SVM入门�Q�六�Q�线性分�c�d��的求�?amp;mdash;—问题的�{化，直观角度

Jasper — Sun, 01 Mar 2009 12:48:00 GMT

让我再一�ơ比较完整的重复一下我们要解决的问题：我们有属于两个类别的��h��点（�q�不限定�q�些点在二维�I�间中）若干�Q�如图，

圆�Ş的样本点定�ؓ正样本（�q�带着�Q�我们可以把正样本所属的�c�d��做正�c�）�Q�方形的点定��例。我们想求得�q�样一个线性函敎ͼ�在n�l�空间中的线性函敎ͼ��Q?

g(x)=wx+b

使得所有属于正�cȝ��?a name="OLE_LINK1">x₊代入以后有g(x₊)≥1�Q�而所有属于负�cȝ��点x_-代入后有g(x_-)≤-1�Q�之所以总跟1比较�Q�无论正一�q�是负一�Q�都是因为我们固定了间隔�?�Q�注意间隔和几何间隔的区别）。代入g(x)后的值如果在1�?1之间�Q�我们就拒绝判断�?

求这��L��g(x)的过�E�就是求w�Q�一个n�l�向量）和b�Q�一个实敎ͼ�两个参数的过�E�（但实际上只需要求w�Q�求得以后找某些��h��点代入就可以求得b�Q�。因此在求g(x)的时候，w才是变量�?

你肯定能看出来，一旦求��Z��w�Q�也��求��Z��b�Q�，那么中间的直�U�H��q��道了�Q�因为它?y��u)��是wx+b=0嘛，哈哈�Q�，那么H1和H2也就知道了（因�ؓ三者是�q��的，而且盔R��的距��还是||w||军_��的）。那么w是谁军_��的？昄��是你�l�的��h��军_��的，一旦你在空间中�l�出了那些个��h��点，三条直线的位�|�实际上��唯一��定了（因�ؓ我们求的是最优的那三条，当然是唯一的）�Q�我们解优化问题的过�E�也只不�q�是把这个确定了的东西算出来而已�?

��h��定了w�Q�用数学的语�a�描述�Q�就是w可以表示为样本的某种�l�合�Q?

w=α₁x₁+α₂x₂+…+α_nx_n

式子中的α_i是一个一个的敎ͼ�在严格的证明�q�程中，�q�些α被称�?span style="color: #3844ff;">拉格朗日乘子�Q�，而x_i是样本点�Q�因而是向量�Q�n��是��L��本点的个数。�ؓ了方便描�q�ͼ�以下开始严格区别数字与向量的乘�U�和向量间的乘积�Q�我会用α₁x₁表示数字和向量的乘积�Q�而用1,x₂>表示向量x₁,x₂的内�U�（也叫点积�Q�注意与向量叉积的区别）。因此g(x)的表辑ּ�严格的�Ş式应该是�Q?

g(x)=+b

但是上面的式子还不够好，你回头看看图中正��h��和负��h��的位�|�，惛_��一下，我不动所有点的位�|�，而只是把其中一个正��h��点定��h��点（也就是把一个点的�Ş状从圆�Ş变�ؓ方�Ş�Q�，�l�果怎么��P��三条直线都必��ȝ��动（因�ؓ对这三条直线的要求是必须把方形和圆�Ş的点正确分开�Q�！�q�说明w不仅跟样本点的位�|�有养I��q�跟��h��的类别有养I��也就是和��h��?#8220;标签”有关�Q�。因此用下面�q�个式子表示才算完整�Q?

w=α₁y₁x₁+α₂y₂x₂+…+α_ny_nx_n �Q�式1�Q?

其中的y_i��是�W�i个样本的标签�Q�它�{�于1或�?1。其实以上式子的那一堆拉格朗日乘子中�Q�只有很��的一部分不等�?�Q�不�{�于0才对w起决定作用）�Q�这部分不等�?的拉格朗日乘子后面所乘的��h��点，其实都落在H1和H2上，也正是这部分��h��Q�而不需要全部样本）唯一的确定了分类函数�Q�当�Ӟ��更严格的��_��q�些��h��的一部分��可以确定，因�ؓ例如��定一条直�U�，只需要两个点��可以，即便有三五个都落在上面，我们也不是全都需要。这部分我们真正需要的��h��点，��叫�?span style="color: #3844ff;">支持�Q�撑�Q�向�?/span>�Q�（名字�q�挺形象吧，他们“�?#8221;起了分界�U�）

式子也可以用求和�W�号��写一下：

因此原来的g(x)表达式可以写为：

注意式子中x才是变量�Q�也��是你要分类哪篇文档�Q�就把该文档的向量表�C�Z��入到 x的位�|�，而所有的x_i�l�统都是已知的样本。还注意到式子中只有x_i和x是向量，因此一部分可以从内�U�符号中拿出来，得到g(x)的式子�ؓ�Q?/p>

发现了什么？w不见啦！从求w变成了求α�?

但肯定有��Z��_��q��ƈ没有把原问题��化呀。嘿嘿，其实��化了�Q�只不过在你看不见的地方�Q�以�q�样的�Ş式描�q�问题以后，我们的优化问题少了很大一部分不等式约束（记得�q�是我们解不了极值问题的万恶之源�Q�。但是接下来先蟩�q�线性分�c�d��求解的部分，来看�?SVM在线性分�c�d��上所做的重大改进—�?span style="color: #3844ff;">核函�?/span>�?

Jasper 2009-03-01 20:48 发表评论

SVM入门�Q�五�Q�线性分�c�d��的求�?amp;mdash;—问题的描�q�Part2

Jasper — Fri, 13 Feb 2009 17:34:00 GMT

从最一般的定义上说�Q�一个求最��值的问题��是一个优化问题（也叫��M��问题�Q�更文绉�l�的叫法�?span style="color: #505bff;">规划——Programming�Q�，它同��L��两部分组成，目标函数和约束条�Ӟ��可以用下面的式子表示�Q?

�Q�式1�Q?

�U�束条�g用函数c来表�C�，��是constrain的意思啦。你可以看出一共有p+q个约束条�Ӟ��其中p个是不等式约�?/span>�Q�q�?span style="color: #505bff;">�{�式�U�束�?

关于�q�个式子可以�q�样来理解：式中的x是自变量�Q�但不限定它的维数必��Mؓ1�Q�视乎你解决的问题空间维敎ͼ��Ҏ(gu��)��们的文本分类来说�Q�那可是成千上万啊）。要求f(x)在哪一点上取得最��|��反倒不太关心这个最��值到底是多少�Q�关键是哪一点）�Q�但不是在整个空间里找，而是在约束条件所划定的一个有限的�I�间里找�Q�这个有限的�I�间��是优化理论里所说的可行�?/span>。注意可行域中的每一个点都要求满��x��有p+q个条�Ӟ��而不是满��_��中一条或几条��可以（切记�Q�要满��每个�U�束�Q�，同时可行域边界上的点有一个额外好的特性，它们可以�?span style="color: #ff0000;">不等式约�?/span>取得�{�号�Q�而边界内的点不行�?

关于可行域还有个概念不得不提�Q�那��是凔R��Q�凸集是指有�q�么一个点的集合，其中��d��两个点连一条直�U�，�q�条�U�上的点仍然在这个集合内部，因此�?#8220;�?#8221;是很形象的（一个反例是�Q�二�l��^面上�Q�一个月牙�Ş的区域就不是凔R��Q�你随便��可以找��C��个点�q�反了刚才的规定�Q��?

回头再来看我们线性分�c�d��问题的描�q�ͼ�可以看出更多的东�ѝ�?

�Q�式2�Q?

在这个问题中�Q�自变量��是w�Q�而目标函数是w的二�ơ函敎ͼ�所有的�U�束条�g都是w的线性函敎ͼ�哎，千万不要把x_i当成变量�Q�它代表��h��Q�是已知的）�Q�这�U�规划问题有个很有名气的�U�呼—�?span style="color: #505bff;">二次规划�Q�Quadratic Programming�Q�QP�Q�，而且可以更进一步的��_��׃��它的可行域是一个凸集，因此它是一�?span style="color: #505bff;">�怺��ơ规�?/span>�?

一下子提了�q�么多术语，实在不是��Z��让大家以后能向别人炫耀学识的渊博，�q�其实是我们�l�箋下去的一个重要前提，因�ؓ在动手求一个问题的解之前（好吧�Q�我承认�Q�是动计��机�?#8230;…�Q�，我们必须先问自己�Q�这个问题是不是有解�Q�如果有解，是否能找刎ͼ�

对于一般意义上的规划问题，两个问题的答案都是不一定，但凸二次规划让�h喜欢的地方就在于�Q�它有解�Q�教�U�书里面��Z��严�}�Q�常常加限定成分�Q�说它有全局最优解�Q�由于我们想扄��本来��是全局最优的解，所以不加也�|�）�Q�而且可以扑ֈ��Q�（当然�Q�依据你使用的算法不同，扑ֈ��q�个解的速度�Q�行话叫收敛速度�Q�会有所不同�Q?

�Ҏ(gu��)��Q�式2�Q�和�Q�式1�Q�还可以发现�Q�我们的�U�性分�c�d��问题只有不等式约束，因此形式上看��g��比一般意义上的规划问题要��单，但解��h��却�ƈ非如此�?

因�ؓ我们实际上�ƈ不知道该怎么解一个带�U�束的优化问题。如果你仔细回忆一下高�{�数学的知识�Q�会记得我们可以��L��的解一个不带�Q何约束的优化问题�Q�实际上��是当年背得烂熟的函数求极值嘛�Q�求导再�?点呗�Q�谁不会啊？�W�）�Q�我们甚臌��会解一个只带等式约束的优化问题�Q�也是背得烂熟的�Q�求条�g极��|��记得么，通过��d��拉格朗日乘子�Q�构造拉格朗日函敎ͼ�来把�q�个问题转化为无�U�束的优化问题云云（如果你一时没想通，我提醒一下，构造出的拉格朗日函数就是�{化之后的问题形式�Q�它昄��没有带�Q何条�Ӟ��?

读者问�Q�如果只带等式约束的问题可以转化为无�U�束的问题而得以求解，那么可不可以把带不等式约束的问题向只带等式约束的问题转化一下而得以求解呢�Q?

聪明�Q�可以，实际上我们也正是�q�么做的。下一节就来说说如何做�q�个转化�Q�一旦�{化完成，求解对�Q何学�q�高�{�数学的人来��_��都是��菜一��啦�?

Jasper 2009-02-14 01:34 发表评论