梯度提升决策树（Gradient Boosting Decision Trees，GBDT）

最新推荐文章于 2025-07-31 16:28:07 发布

原创最新推荐文章于 2025-07-31 16:28:07 发布 · 1.6k 阅读

21 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#决策树 #boosting #算法 #梯度提升 #机器学习

本文详细介绍了梯度提升决策树（GBDT）算法。提升树是以分类树或回归树为基本分类器的提升方法，采用加法模型与前向分步算法。文中阐述了回归问题的提升树及前向分布算法，还介绍了梯度提升算法，利用损失函数的负梯度近似残差来拟合回归树。

梯度提升决策树（Gradient Boosting Decision Trees，GBDT）

提升树是以分类树或回归树为基本分类器的提升方法。提升树被认为是统计学习中性能最好的方法之一。

提升方法实际采用加法模型(即基函数的线性组合)与前向分步算法。以决策树为基函数的提升方法称为提升树（boosting tree）。对分类问题决策树是二叉分类树，对回归问题决策树是二叉回归树。

---------------------------------------------------------------------------------------------------------------------------------------

输入：线性可分训练数据集 $T= \{(x_1,y_1), (x_2,y_2),…, (x_N,y_N)\}$

其中， $x_i∈X=R^n,y_i∈Y, i = 1,2,…,N$ ；弱学习算法

输出：提升树 $f_M(x)$

优化问题：

不同问题的提升树学习算法，其主要区别在于使用的损失函数不同。回归问题：平方误差损失函数；分类问题：指数损失函数。

$f_{m-1}(x)$ 为当前模型，通过经验风险极小化确定下一颗决策树的参数 $Θm\Theta_m$ ：
$Θ^m=arg minΘm∑i=1NL(yi,fm(x))→Θ^m=arg minΘm∑i=1NL(yi,fm−1(xi)+T(x;Θm)) \hat\Theta_m=arg\ \underset{\Theta_m}{min}\sum_{i=1}^NL(y_i,f_m(x))\\ \\ →\hat\Theta_m=arg\ \underset{\Theta_m}{min}\sum_{i=1}^NL(y_i,f_{m-1}(x_i)+T(x;\Theta_m))$
回归问题：
$Θ^m=arg minΘm∑i=1N(yi−fm(x))2→Θ^m=arg minΘm∑i=1N(yi−fm−1(x)−T(x;Θm))2→Θ^m=arg minΘm∑i=1N(r−T(x;Θm))2,r=y−fm−1(x) \hat\Theta_m=arg\ \underset{\Theta_m}{min}\sum_{i=1}^N(y_i-f_{m}(x))^2\\ \\ →\hat\Theta_m=arg\ \underset{\Theta_m}{min}\sum_{i=1}^N(y_i-f_{m-1}(x)-T(x;\Theta_m))^2\\ \\ →\hat\Theta_m=arg\ \underset{\Theta_m}{min}\sum_{i=1}^N(r-T(x;\Theta_m))^2,r=y-f_{m-1}(x)$

分类问题：
$Θ^m=arg minΘm∑i=1Nexp(−yifm(x))→Θ^m=arg minΘm∑i=1Nexp[−yi(fm−1(x)+T(x;Θm))] \hat\Theta_m=arg\ \underset{\Theta_m}{min}\sum_{i=1}^Nexp(-y_if_m(x))\\ \\ →\hat\Theta_m=arg\ \underset{\Theta_m}{min}\sum_{i=1}^Nexp[-y_i(f_{m-1}(x)+T(x;\Theta_m))]$
---------------------------------------------------------------------------------------------------------------------------------------

提升树模型可以表示为决策树的加法模型：
$f_M(x)=\sum_{m=1}^MT(x;\Theta_m)$
其中， $T(x;Θm)T(x;\Theta_m)$ 表示决策树， $Θm\Theta_m$ 为决策树的参数，M为树的个数。

首先确定初始提升树 $f_0(x)=0$ ，第m步的模型是：
$f_{m}(x)=f_{m-1}(x)+T(x;\Theta_m)$

回归问题的提升树

已知一个训练数据集 $T= \{(x_1,y_1), (x_2,y_2),…, (x_N,y_N)\}$ 其中， $x_i∈X=R^n,y_i∈Y, i = 1,2,…,N$ ；X 为输入空间，Y 为输出空间。

如果将输入空间划分为J 个互不相交的区域 $R_1,R_2,...,R_J$ ，并且在每个区域上确定输出的常量 $c_j$ ，那么树可以表示为：
$T(x;\Theta)=\sum_{j=1}^Jc_jI(x∈R_j)$
其中，参数 $Θ={(R1,c1),(R2,c2),...,(RJ,cJ)}\Theta=\{(R_1,c_1),(R_2,c_2),...,(R_J,c_J)\}$ 表示树的区域划分和各个区域上的常数。J 是回归树的复杂度即叶节点个数。

回归问题的前向分布算法

$f_0(x)=0\\ \\ f_m(x)=f_{m-1}(x)+T(x;\Theta_m),\ \ \ m=1,2,...,M\\ \\ f_M(x)=\sum_{m=1}^MT(x;\Theta_m)$

第m步时，当前模型是 $f_{m-1}(x)$ ，要求解以下的式子（回归问题采用均方误差损失函数）得到 $Θ^m\hat\Theta_m$ ：
$Θ^m=arg minΘm∑i=1N(yi−fm(x))2→Θ^m=arg minΘm∑i=1N(yi−fm−1(x)−T(x;Θm))2→Θ^m=arg minΘm∑i=1N(r−T(x;Θm))2,r=y−fm−1(x) \hat\Theta_m=arg\ \underset{\Theta_m}{min}\sum_{i=1}^N(y_i-f_{m}(x))^2\\ \\ →\hat\Theta_m=arg\ \underset{\Theta_m}{min}\sum_{i=1}^N(y_i-f_{m-1}(x)-T(x;\Theta_m))^2\\ \\ →\hat\Theta_m=arg\ \underset{\Theta_m}{min}\sum_{i=1}^N(r-T(x;\Theta_m))^2,r=y-f_{m-1}(x)$
算法流程：

输入：线性可分训练数据集 $T= \{(x_1,y_1), (x_2,y_2),…, (x_N,y_N)\}$

其中， $x_i∈X=R^n,y_i∈Y, i = 1,2,…,N$ ；弱学习算法

输出：提升树 $f_M(x)$

（1）初始化 $f_0(x)= 0$ 。

（2）对m=1，2，…，M。

（a）按照 $T(x;Θ)=∑j=1JcjI(x∈Rj)T(x;\Theta)=\sum_{j=1}^Jc_jI(x∈R_j)$ 计算残差：
$r_{mi}=y_i-f_{m-1}(x_i),\ \ \ i=1,2,...,N$
（b）拟合残差 $r_{mi}$ 学习一个回归树，得到 $T(x;Θm)T(x;\Theta_m )$

（c）更新 $fm(x)=fm−1(x)+T(x;Θm)f_m(x)=f_{m-1}(x)+T(x;\Theta_m)$

（3）得到回归问题的提升树
$f_M(x)=\sum_{m=1}^MT(x;\Theta_m)$

梯度提升

提升树算法利用加法模型与前向分布算法实现学习的优化过程。当损失函数时平方损失和指数损失函数的时候，每一步的优化时很简单的。但是对于一般损失函数而言，往往每一步优化都不是容易的。

其关键是利用损失函数的负梯度在当前模型的值
$-[\frac{\partial L(y,f(x_i))}{\partial f(x_i)}]_{f(x)=f_{m-1}(x)}$
作为回归问题提升树算法中的残差的近似值，拟合一个回归树。

算法流程：

输入：线性可分训练数据集 $T= \{(x_1,y_1), (x_2,y_2),…, (x_N,y_N)\}$

其中， $x_i∈X=R^n,y_i∈Y, i = 1,2,…,N$ ；损失函数 $L (y, f (x))$ ;

输出：提升树 $f^(x)\hat f(x)$

（1）初始化 $f0(x)=argminc∑i=1NL(yi,c)f_0(x)= arg \underset{c}{min}\sum_{i=1}^NL(y_i,c)$ 。

（2）对m=1，2，…，M。

（a）对i=1，2，…，N，计算：
$r_{mi}=-[\frac{\partial L(y,f(x_i))}{\partial f(x_i)}]_{f(x)=f_{m-1}(x)}$
（b）拟合残差 $r_{mi}$ 学习一个回归树，得到第m颗树的叶节点区域 $R_{mj},j=1,2,...,J$

（c）对j=1，2，…，J，计算
$c_{mj}=arg\ \underset{c}{min}\sum_{x_i∈R_{mj}}L(y_i,f_{m-1}(x_i)+c)$
（d）更新 $fm(x)=fm−1(x)+∑j=1JcmjI(x∈Rmj)f_m(x)=f_{m-1}(x)+\sum_{j=1}^Jc_{mj}I(x∈R_{mj})$