决策树

最新推荐文章于 2025-04-22 22:01:20 发布

原创最新推荐文章于 2025-04-22 22:01:20 发布 · 495 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#决策树 #信息增益 #基尼指数 #条件熵 #信息增益比

机器学习同时被 2 个专栏收录

40 篇文章

订阅专栏

机器学习

30 篇文章

订阅专栏

决策树

决策树模型

决策树学习通常包括3个步骤：特征选择、决策树的生成和决策树的修剪。常用的算法有ID3、C4.5、CART算法。
决策树由结点和有向边组成；内部节点表示特征和属性，叶节点表示一个类。

特征选择准则

特征选择准则有信息增益（ID3）、信息增益比（C4.5）、基尼指数（CART）。

熵和条件熵

熵(entropy)：熵是随机变量不确定性的度量。
设 $X$ 是一个取有限值的离散型随机变量，随机变量 $X$ 的熵定义为：
$H(X)=-\sum_{i=1}^{n}p_i log p_i \tag{1}$
条件熵：条件熵 $H(Y|X)$ 表示在已知随机变量 $X$ 的条件下，随机变量 $Y$ 的不确定性。
$H(Y|X)=\sum_{i=1}^{n}p_iH(Y|X=x_i)\tag{2}$
这里， $p_i=P(X=x_i), i=1,2, ....,n$ 。 $i$ 特征 $X$ 的取值的个数。

信息增益(information gain)

信息增益：由于特征A而使得对数据集D的分类的不确定性减少的程度。
样本集合D对特征A的信息增益 $g(D,A)$ 为：

g (D, A) = H (D) - H (D | A)

$g(D,A)=H(D)-H(D|A)$

H (D) = - \sum k = 1 K ∣ C k ∣ ∣ D ∣ l o g 2 ∣ C k ∣ ∣ D ∣

$H(D)=-\sum_{k=1}^{K}\frac{\mid C_k\mid}{\mid D\mid}log_2\frac{\mid C_k\mid}{\mid D\mid}$

H (D | A) = \sum i = 1 n ∣ D i ∣ ∣ D ∣ H (D i) = - \sum i = 1 n ∣ D i ∣ ∣ D ∣ \sum k = 1 K ∣ D i k ∣ ∣ D i ∣ l o g 2 ∣ D i k ∣ ∣ D i ∣

$H(D|A)=\sum_{i=1}^{n}\frac{\mid D_i\mid}{\mid D\mid}H(D_i)=-\sum_{i=1}^{n}\frac{\mid D_i\mid}{\mid D\mid}\sum_{k=1}^{K}\frac{\mid D_{ik}\mid}{\mid D_i\mid}log_2\frac{\mid D_{ik}\mid}{\mid D_i\mid}$
其中，

H(D)H(D) $H(D)$ 是数据集

DD $D$ 的熵，

D_{i}

$D_i$ 是

DD $D$ 中特征

A

$A$ 取第

ii $i$ 个值的样本集。

H (D | A)

$H(D|A)$ 为数据集

DD $D$ 对特征

A

$A$ 的条件熵，

H(Di)H(Di) $H(D_i)$ 为数据集

DiDi $D_i$ 的熵，

KK $K$ 为样本类别的个数。

D_{i k}

$D_{ik}$ 为特征

AA $A$ 取第

i

$i$ 个值时，第

kk $k$ 个类别样本的数量。

C_{k}

$C_k$ 为

DD $D$ 中属于第

k

$k$ 类的样本子集，

nn $n$ 是特征

A

$A$ 的取值个数。

信息增益比

样本集合 $D$ 对特征 $A$ 的信息增益比为：样本集合 $D$ 对特征 $A$ 的信息增益和集合 $D$ 关于特征 $A$ 的值的熵 $H_A(D)$ 之比：

g R (D, A) = g ( D , A ) H A ( D ) (3)

$g_R(D,A)=\frac{g(D,A)}{H_A(D)} \tag{3}$
其中，

HA(D)=−∑ni=1∣Di∣∣D∣log2∣Di∣∣D∣HA(D)=−∑i=1n∣Di∣∣D∣log2∣Di∣∣D∣ $H_A(D)=-\sum_{i=1}^{n}\frac{\mid D_i\mid}{\mid D\mid}log_2\frac{\mid D_i\mid}{\mid D\mid}$ ，

nn $n$ 是特征

A

$A$ 取值的个数。

基尼指数

在分类问题中，假设有 $k$ 个类，则样本点属于第 $k$ 类的概率为 $p_k$ ，则概率分布的基尼指数为：

G i n i (p) = \sum k = 1 K p k (1 - p k) = 1 - \sum k = 1 K p k 2

$Gini(p)=\sum_{k=1}^{K}p_k(1-p_k)=1-\sum_{k=1}^{K}{p_k}^2$
对于二分类问题，若样本点属于第1个类的概率是

pp $p$ ，则概率分布的基尼指数为

G i n i (p) = 2 p (1 - p)

$Gini(p)=2p(1-p)$
对于给定的集合样本

DD $D$ ，其基尼指数为

G i n i (D) = 1 - \sum_{k = 1}^{K} {(\frac{∣ C_{k} ∣}{∣ D ∣})}^{2}

$Gini(D)=1-\sum_{k=1}^{K}{(\frac{\mid C_k\mid}{\mid D\mid})}^2$
这里，

CkCk $C_k$ 是

DD $D$ 中属于第

k

$k$ 类的样本子集，

KK $K$ 是类的个数。
若特征

A

$A$ 将样本集合

DD $D$ 划分成

D_{1}

$D_1$ 和

D2D2 $D_2$ 两部分。则在特征

AA $A$ 的条件下，集合

D

$D$ 的基尼指数定义为：

G i n i (D, A) = ∣ C 1 ∣ ∣ D ∣ G i n i (D 1) + ∣ C 2 ∣ ∣ D ∣ G i n i (D 2)

$Gini(D,A)=\frac{\mid C_1\mid}{\mid D\mid}Gini(D_1)+\frac{\mid C_2\mid}{\mid D\mid}Gini(D_2)$

决策树剪枝：

解决问题：解决决策树的过拟合问题。
定义：
决策树剪枝通过极小化决策树整体的损失函数或者代价函数来实现。
设一棵树 $T$ 的叶子结点的个数为 $\mid T\mid$ ，某个叶子结点为 $t$ ，该 $t$ 叶节点有 $N_t$ 个样本点，其中k类的样本点有 $N_{tk}$ 个， $k=1,2,...,K$ 。决策树的损失函数定义为：
$C a (T) = C (T) + a | T |$ $C_a(T)=C(T)+a|T|$
其中， $T$ 为任意子树， $C(T)$ 为对训练数据的预测误差， $\mid T\mid$ 为模型的复杂度。 $\alpha$ 权衡训练数据的拟合程度与模型的复杂度。较大的 $\alpha$ 促使选择较简单的决策树，较小的 $\alpha$ 促使选择较复杂的决策树。 $a=0$ 只考虑模型与训练数据的拟合程度，不考虑模型的复杂度。
节点分裂度量方法通过(信息增益\信息增益比\Gini)对训练数据进行更好的拟合，决策树剪枝通过优化损失函数来减少模型的复杂度。
$C a (T) = \sum t = 1 | T | N t H t (T) + a | T |$ $C_a(T)=\sum_{t=1}^{|T|}N_tH_t(T)+a|T|$ $= \sum t = 1 ∣ T ∣ N t (- \sum k N t k N t l o g N t k N t) + a | T |$ $=\sum_{t=1}^{\mid T\mid}N_t(-\sum_{k}\frac{N_{tk}}{N_t}log\frac{N_{tk}}{N_t})+a|T|$ $= - \sum t = 1 | T | \sum k = 1 K N t k l o g N t k N t + a | T |$ $=-\sum_{t=1}^{|T|}\sum_{k=1}^{K}N_{tk}log\frac{N_{tk}}{N_t}+a|T|$