决策树

决策树

决策树模型

  • 决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。常用的算法有ID3、C4.5、CART算法。
  • 决策树由结点有向边组成;内部节点表示特征属性叶节点表示一个

特征选择准则

特征选择准则有信息增益(ID3)、信息增益比(C4.5)、基尼指数(CART)。

熵和条件熵

熵(entropy):熵是随机变量不确定性的度量。
XX是一个取有限值的离散型随机变量,随机变量X的熵定义为:
H(X)=ni=1pilogpi(1)(1)H(X)=−∑i=1npilogpi
条件熵:条件熵H(Y|X)H(Y|X)表示在已知随机变量XX的条件下,随机变量Y的不确定性。
H(Y|X)=ni=1piH(Y|X=xi)(2)(2)H(Y|X)=∑i=1npiH(Y|X=xi)
这里,pi=P(X=xi),i=1,2,....,npi=P(X=xi),i=1,2,....,nii特征X的取值的个数。

信息增益(information gain)

信息增益:由于特征A而使得对数据集D的分类的不确定性减少的程度。
样本集合D对特征A的信息增益g(D,A)g(D,A)为:

g(D,A)=H(D)H(D|A)g(D,A)=H(D)−H(D|A)
H(D)=k=1KCkDlog2CkDH(D)=−∑k=1K∣Ck∣∣D∣log2∣Ck∣∣D∣
H(D|A)=i=1nDiDH(Di)=i=1nDiDk=1KDikDilog2DikDiH(D|A)=∑i=1n∣Di∣∣D∣H(Di)=−∑i=1n∣Di∣∣D∣∑k=1K∣Dik∣∣Di∣log2∣Dik∣∣Di∣

其中,H(D)H(D)是数据集DD的熵,DiDD中特征A取第ii个值的样本集。H(D|A)为数据集DD对特征A的条件熵,H(Di)H(Di)为数据集DiDi的熵,KK为样本类别的个数。Dik为特征AA取第i个值时,第kk个类别样本的数量。CkDD中属于第k类的样本子集,nn是特征A的取值个数。

信息增益比

样本集合DD对特征A的信息增益比为:样本集合DD对特征A的信息增益和集合DD关于特征A的值的熵HA(D)HA(D)之比:

gR(D,A)=g(D,A)HA(D)(3)(3)gR(D,A)=g(D,A)HA(D)

其中,HA(D)=ni=1DiDlog2DiDHA(D)=−∑i=1n∣Di∣∣D∣log2∣Di∣∣D∣nn是特征A取值的个数。

基尼指数

在分类问题中,假设有kk个类,则样本点属于第k类的概率为pkpk,则概率分布的基尼指数为:

Gini(p)=k=1Kpk(1pk)=1k=1Kpk2Gini(p)=∑k=1Kpk(1−pk)=1−∑k=1Kpk2

对于二分类问题,若样本点属于第1个类的概率是pp,则概率分布的基尼指数为
Gini(p)=2p(1p)

  对于给定的集合样本DD,其基尼指数为
Gini(D)=1k=1K(CkD)2

这里,CkCkDD中属于第k类的样本子集,KK是类的个数。
若特征A将样本集合DD划分成D1D2D2两部分。则在特征AA的条件下,集合D的基尼指数定义为:
Gini(D,A)=C1DGini(D1)+C2DGini(D2)Gini(D,A)=∣C1∣∣D∣Gini(D1)+∣C2∣∣D∣Gini(D2)

决策树剪枝:

  • 解决问题:解决决策树的过拟合问题。
  • 定义:
    决策树剪枝通过极小化决策树整体的损失函数或者代价函数来实现。
    设一棵树TT的叶子结点的个数为T,某个叶子结点为tt,该t叶节点有NtNt个样本点,其中k类的样本点有NtkNtk个,k=1,2,...,Kk=1,2,...,K。决策树的损失函数定义为:
    Ca(T)=C(T)+a|T|Ca(T)=C(T)+a|T|

    其中,TT为任意子树,C(T)为对训练数据的预测误差,T∣T∣为模型的复杂度。αα权衡训练数据的拟合程度与模型的复杂度。较大的αα促使选择较简单的决策树,较小的αα促使选择较复杂的决策树。a=0a=0只考虑模型与训练数据的拟合程度,不考虑模型的复杂度。
    节点分裂度量方法通过(信息增益\信息增益比\Gini)对训练数据进行更好的拟合,决策树剪枝通过优化损失函数来减少模型的复杂度。
    Ca(T)=t=1|T|NtHt(T)+a|T|Ca(T)=∑t=1|T|NtHt(T)+a|T|
    =t=1TNt(kNtkNtlogNtkNt)+a|T|=∑t=1∣T∣Nt(−∑kNtkNtlogNtkNt)+a|T|
    =t=1|T|k=1KNtklogNtkNt+a|T|=−∑t=1|T|∑k=1KNtklogNtkNt+a|T|
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值