转蝲h明出?http://www.aygfsteel.com/fireflyk/archive/2011/09/25/359447.html
1. 分类
1.1 定义Q通过学习得到一个目标函?/span>fQ把每个属性集x映射C个预先定义的cL?/span>y?/span>
狭隘地说Q有大量数据Q?strong>预先知道所有的cdQ但无法分类Q通过数据的多个属性维度来推测每条数据属于哪个类型?/span>(?/span>,?/span>,?/span>,?/span>) -> 极品帅哥Q?/span>(?/span>,?/span>,?/span>,?/span>) -> 猥琐甗?/span>
严格来说Q?#8220;分类”可以用于描述性徏模和预测性徏模?/span>
1.2 应用场景
适合预测或描qC元或标称的,对于序数分类Q分cL术不太有效,其他形式的联pM被忽略。(复习Q标U的Q?/span>=?/span>≠Q教师和工hQ序数的Q?lt;?gt;Q收入高和收入低Q?/span>
例如Q前几天看的一个科学研IӞ个h认ؓ不适合用分cL做。科学家找来志愿者,按臀围大分Zl做智商试Q发现臀围大的明显比臀围小的智商测试结果高。于是得出结论,臀围大的智商高。我认ؓQ这是最明显的一个错误,智商高低是序数分c,不能用分cL法来做。它隐藏了一些内在联p,例如智商高的相对来说爱学习、坐办公室、少q动D肥胖、臀围大。而不是你把臀围搞大就一定能智商高!
1.3 实现Ҏ(gu)
训练数据 -> 学习模型 -> 模型 -> 应用模型 -> 校验数据
单说是先训l,得出l论再校验。分cL法包括决{树分类法、基于规则的分类法、神l网l、支持向量机和朴素贝叶斯分类法?/span>
模型准确?/span> = 正确预测?/span> / L
2. 决策树分c?/span>
2.1 定义
?/span>2-1
如上图,通过提出一pd_ֿ构思的问题Q可以解军_c问题,每当一个问题得到答案,后箋问题随之解冟?/span>
根节炏V内部节炚w是非l结点,是属性测试条件。叶节点也是l结点,是分cȝ果?/span>
2.2 建立决策?/span>
Hunt法Q是许多决策树算法的基础Q包?/span>ID3Q?/span>C4.5Q?/span>CART?/span>
训练数据集,(Tid, 有房?/span>, 婚姻状况, q收?/span>, 拖欠h)Q具体数据见《数据挖掘导论?/span>P94?/span>
大量数据是不拖欠h的,所以选取cLP“拖欠h=?#8221;。然后选择试条g“有房?#8221;。接下来Q再看生成数U,哪个叶子节点是无法确定到cLLQ无法确定的递归调用如上步骤Q选取试条g“婚姻状况”Q然后是“q收?#8221;。一决{树建立好了Qؓ何按照这L序Q后边解释?/span>
试条gQ可以是二元的(P奻IQ标U的Q单w、已婚、离异)Q序数的Q?/span>SPMPLPXLP分类l果不能是序数的Q但是测试条件可以是序数的)Q连l的Q工资是q箋属性)?/span>
2.3 选择最佳的划分度量
p(i|t)表示l定节点t中属于类i的记录所占的比例Q有时候省?/span>tQ直接用pi表示。这里介l不U性(我称它ؓ区分度,数字小Q区分度大Q度量的一U方法,c是类的个敎ͼ
2.3.1 二元属性划?/span>
划分AQ结?/span>N1Q类C0Q?/span>4个,c?/span>C1Q?/span>3个;l点N2Q类C0Q?/span>2个,c?/span>C1Q?/span>3个?/span>
| N1 | N2 |
C0 | 4 | 2 |
C1 | 3 | 3 |
Gini(1) = 1-(4/7)2-(3/7)2 = 24/49
Gini(2) = 1-(2/5)2-(3/5)2 = 12/25
加权Gini = Gini(1) * 7/12 + Gini(2) * 5/12 = 0.486
划分BQ同理得?/span>Gini=0.371Q由此说明划?/span>B更好?/span>
| N1 | N2 |
C0 | 1 | 2 |
C1 | 4 | 5 |
2.3.2 标称属性划?/span>
与二元属性(一个属性,属性值多元)划分衡量Ҏ(gu)相同Q有三元或多元(一个属性,属性值多元)的情况,Ҏ(gu)计算Gini来决定如何划分(可以划分为多路划分,不局限于两\划分Q?/span>
2.3.3 q箋属性划?/span>
把训l集中每一w作ؓ一?#8220;<=试条g”Q列出每一个结点下?/span>C0数量?/span>C1数量Q计每一个点?/span>Gini。而事实上Q不用每一个点都计。如《数据挖掘导论?/span>P100中,60,70,75q箋且类标号相同Q?/span>120,125,220q箋且类标号相同Q所以划分点选取不能切断他们Q所以这几个点不用计?/span>Gini倹{?/span>
2.4 决策树归U特?/span>
会有重复的数据碎片,卛_在相同两子树,如图2-1?/span>
目前为止Q每个测试条件只包含一个属性,对于x1+x2<1Q也是可以允许的Q称为斜决策树?/span>