决策树
决策树模型
- 决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。常用的算法有ID3、C4.5、CART算法。
- 决策树由结点和有向边组成;内部节点表示特征和属性,叶节点表示一个类。
特征选择准则
特征选择准则有信息增益(ID3)、信息增益比(C4.5)、基尼指数(CART)。
熵和条件熵
熵(entropy):熵是随机变量不确定性的度量。
设XX是一个取有限值的离散型随机变量,随机变量的熵定义为:
H(X)=−∑ni=1pilogpi(1)(1)H(X)=−∑i=1npilogpi
条件熵:条件熵H(Y|X)H(Y|X)表示在已知随机变量XX的条件下,随机变量的不确定性。
H(Y|X)=∑ni=1piH(Y|X=xi)(2)(2)H(Y|X)=∑i=1npiH(Y|X=xi)
这里,pi=P(X=xi),i=1,2,....,npi=P(X=xi),i=1,2,....,n。ii特征的取值的个数。
信息增益(information gain)
信息增益:由于特征A而使得对数据集D的分类的不确定性减少的程度。
样本集合D对特征A的信息增益g(D,A)g(D,A)为:
g(D,A)=H(D)−H(D|A)g(D,A)=H(D)−H(D|A)
H(D)=−∑k=1K∣Ck∣∣D∣log2∣Ck∣∣D∣H(D)=−∑k=1K∣Ck∣∣D∣log2∣Ck∣∣D∣
H(D|A)=∑i=1n∣Di∣∣D∣H(Di)=−∑i=1n∣Di∣∣D∣∑k=1K∣Dik∣∣Di∣log2∣Dik∣∣Di∣H(D|A)=∑i=1n∣Di∣∣D∣H(Di)=−∑i=1n∣Di∣∣D∣∑k=1K∣Dik∣∣Di∣log2∣Dik∣∣Di∣
其中,H(D)H(D)是数据集DD的熵,是DD中特征取第ii个值的样本集。为数据集DD对特征的条件熵,H(Di)H(Di)为数据集DiDi的熵,KK为样本类别的个数。为特征AA取第个值时,第kk个类别样本的数量。为DD中属于第类的样本子集,nn是特征的取值个数。
信息增益比
样本集合DD对特征的信息增益比为:样本集合DD对特征的信息增益和集合DD关于特征的值的熵HA(D)HA(D)之比:
gR(D,A)=g(D,A)HA(D)(3)(3)gR(D,A)=g(D,A)HA(D)
其中,HA(D)=−∑ni=1∣Di∣∣D∣log2∣Di∣∣D∣HA(D)=−∑i=1n∣Di∣∣D∣log2∣Di∣∣D∣,nn是特征取值的个数。
基尼指数
在分类问题中,假设有kk个类,则样本点属于第类的概率为pkpk,则概率分布的基尼指数为:
Gini(p)=∑k=1Kpk(1−pk)=1−∑k=1Kpk2Gini(p)=∑k=1Kpk(1−pk)=1−∑k=1Kpk2
对于二分类问题,若样本点属于第1个类的概率是pp,则概率分布的基尼指数为
对于给定的集合样本DD,其基尼指数为
这里,CkCk是DD中属于第类的样本子集,KK是类的个数。
若特征将样本集合DD划分成和D2D2两部分。则在特征AA的条件下,集合的基尼指数定义为:
Gini(D,A)=∣C1∣∣D∣Gini(D1)+∣C2∣∣D∣Gini(D2)Gini(D,A)=∣C1∣∣D∣Gini(D1)+∣C2∣∣D∣Gini(D2)
决策树剪枝:
- 解决问题:解决决策树的过拟合问题。
- 定义:
决策树剪枝通过极小化决策树整体的损失函数或者代价函数来实现。
设一棵树TT的叶子结点的个数为,某个叶子结点为tt,该叶节点有NtNt个样本点,其中k类的样本点有NtkNtk个,k=1,2,...,Kk=1,2,...,K。决策树的损失函数定义为:
Ca(T)=C(T)+a|T|Ca(T)=C(T)+a|T|
其中,TT为任意子树,为对训练数据的预测误差,∣T∣∣T∣为模型的复杂度。αα权衡训练数据的拟合程度与模型的复杂度。较大的αα促使选择较简单的决策树,较小的αα促使选择较复杂的决策树。a=0a=0只考虑模型与训练数据的拟合程度,不考虑模型的复杂度。
节点分裂度量方法通过(信息增益\信息增益比\Gini)对训练数据进行更好的拟合,决策树剪枝通过优化损失函数来减少模型的复杂度。
Ca(T)=∑t=1|T|NtHt(T)+a|T|Ca(T)=∑t=1|T|NtHt(T)+a|T|=∑t=1∣T∣Nt(−∑kNtkNtlogNtkNt)+a|T|=∑t=1∣T∣Nt(−∑kNtkNtlogNtkNt)+a|T|=−∑t=1|T|∑k=1KNtklogNtkNt+a|T|=−∑t=1|T|∑k=1KNtklogNtkNt+a|T|


1万+

被折叠的 条评论
为什么被折叠?



