Bagging算法与随机森林

最新推荐文章于 2025-07-06 23:57:47 发布

原创最新推荐文章于 2025-07-06 23:57:47 发布 · 3.6k 阅读

·

1

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

机器学习专栏收录该内容

15 篇文章

订阅专栏

本文详细介绍了Bagging算法，包括自助采样法、算法描述以及包外估计。此外，还探讨了随机森林作为Bagging的一种扩展，强调了其在决策树训练中的随机属性选择策略，以增强基学习器的多样性，提升泛化性能。

Bagging算法

一、自助采样法

给定包含m个样本的数据集D，我们对它进行采样产生数据集D’：每次随机从D中挑选一个样本，将其拷贝放入D’，然后再将该样本放回初始数据集D中，使得该样本在下次采样时仍有可能被采样到；这个过程重复执行m次后，我们就得到了包含m个样本的数据集D’，这就是自助采样的结果。

显然有一部分样本会在D‘中出现多次，而另一部分样本不出现。样本在m次采样中始终不被采到的概率是:

lim m \to \infty (1 - 1 m) m = 1 e = 0.368

$\lim_{m \rightarrow \infty} (1- \frac 1 m)^m = \frac 1 e = 0.368$
即通过自助采样法，初始数据集D中约有36.8%的样本未出现在样本数据集D‘中。于是我们可将D’用作训练集，D\D’用作测试集,这种做法简称“包外估计”

二、算法描述

我们可以采样出T个含有m个训练样本的采样集，然后基于每个采样集训练出一个集学习器，在将这些基学习器进行结合。在对预测输出进行结合时，Bagging通常对分类任务使用简单投票法，对回归任务使用简单平均法。若分类预测时出现两个类收到同样票数的情形，则最简单的做法是随机选择一个。

算法描述

输入：训练集 $D=\{(x_1,y_1) ,\cdots, (x_N,y_N)\}$ ;

基学习算法 $\xi$ ;

训练轮数T。

过程

for t = 1,2 , … , T do

通过自助采样法得到 $D_{bs}$

$h_t = \xi(D,D_{bs})$

end for

输出： $H(x) =arg \max_{y \in Y} \sum_{t=1}^T I(h_t(x) =y)$

三、包外估计

令 $D_t$ 表示 $h_t$ 实际使用的训练样本集，令 $H^{oob}(x)$ 表示对样本x的包外估计，即仅考虑哪些未使用x训练的集学习器在x上的预测

H o o b (x) = a r g max y \in Y \sum t = 1 T I (h t (x) = y) I (x \notin D t)

$H^{oob}(x)= arg \max_{y\in Y} \sum_{t=1}^T I(h_t(x) =y) I(x \notin D_t)$
则Bagging泛化误差的包外估计为

ϵ o o b = 1 | D | \sum (x, y) \in D I (H o o b (x) \neq y)

$\epsilon ^{oob} = \frac 1 {|D|} \sum_{(x,y) \in D} I(H^{oob}(x) \neq y)$

随机森林(Random Forest ,简称RF) 是 Bagging的一个扩展变体。RF再以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机属性选择。

随机森林

对基决策树的每个结点，先从该结点的属性集合中随机选择一个包含K个属性的子集，然后再从这个子集中选择一个最优属性用于划分。

K控制了随机性的引入程度

若令K＝d,则基决策树的构建与传统决策树相同
若令K＝1，则随机选择一个属性用于划分
一般情况下推荐值K＝ $\log_2d$ .

随机森林中基学习器的多样性不仅来自样本扰动，还来自属性扰动，这就使得最终集成的泛化性能可通过个体学习器之间差异度的增加而进一步提升

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。