决策树的预剪枝与后剪枝

最新推荐文章于 2026-04-01 14:26:44 发布

原创

最新推荐文章于 2026-04-01 14:26:44 发布 · 置顶 · 3.8w 阅读

347

标签

#决策树 #预剪枝 #后剪枝

收录于

前言：

本次讲解参考的仍是周志华的《机器学习》，采用的是书中的样例，按照我个人的理解对其进行了详细解释，希望大家能看得懂。

1、数据集

其中{1,2,3,6,7,10,14,15,16,17}为测试集，{4,5,8,9,11,12,13}为训练集。

2、预剪枝

预剪枝是要对划分前后泛化性能进行评估。对比决策树某节点生成前与生成后的泛化性能。

（1）在未划分前，根据训练集，类别标记为训练样例数最多的类别，由于训练集中的好瓜与坏瓜是相同多的类别，均为5，因此任选其中一类，书中选择了好瓜作为标记类别。

当所有节点集中在根节点，所有训练集属于标记类别的仅有{4,5,8}，因此分类正确的是3/7*100%=42.9%

编号	好瓜(正确结果)
4	是
5	是
8	是
9	否
11	否
12	否
13	否
	3/7

（2）计算训练集的信息增益，得知脐部的信息增益最大，因此按照脐部进行划分。又因为在训练集中，凹陷特征好瓜的占比多，因此凹陷划分为好瓜，稍凹特征好过占比多，因此将其标记为好瓜，因此按照脐部划分的子树结果如下：

划分后，对比结果如下：

编号	好瓜(正确结果)	按照脐部划分
4(凹陷)	是	是
5(凹陷)	是	是
8(稍凹)	是	是
9(稍凹)	否	是(划分错误)
11(平坦)	否	否
12(平坦)	否	否
13(凹陷)	否	是(划分错误)
正确率	3/7	5/7(精度提高，划分)

（3）在脐部划分的基础上，进一步计算凹陷、根蒂特征下，其他属性的信息增益，根据计算结果可知，在凹陷的情况下，色泽的信息增益最大，因此对于凹陷的西瓜，进一步确定按照色泽进行划分，划分结果如下：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zfan520

关注关注

86
点赞
踩
347

收藏

觉得还不错? 一键收藏
31
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

决策树——预剪枝和后剪枝

chenxingxingxing的博客

11-20

6510

决策树生成算法递归地产生决策树，直到不能继续下去为止。这样产生的树往往对训练数据的分类很准确，但对未知的测试数据的分类却没有那么准确，即容易出现过拟合现象。解决这个问题的办法是考虑决策树的复杂度，对已生成的决策树进行简化，下面来探讨以下决策树剪枝算法。

机器学习——决策树（四）后剪枝

m0_60402183的博客

03-21

2139

31 条评论您还未登录，请先登录后发表或查看评论

决策树（Decision Tree）

热门推荐

轻步玉阶

06-21

2万+

决策树python源码实现（含预剪枝和后剪枝）一、说明所用的环境为Ubuntu + python 3.6，在jupyter中运行。本文实现周志华《机器学习》西瓜书中的4.1 ~ 4.3中的决策树算法（不含连续值、缺失值处理），对应李航《统计学习方法》的5.1 ~ 5.4节。画图工具参考《机器学习实战...

机器学习--决策树二（预剪枝和后剪枝）

jimei2011的博客

11-22

6830

预剪枝，后剪枝

西瓜书决策树预剪枝后剪枝过程详解

zr1213159840的博客

01-08

6360

预剪枝 概念：决策树生成过程中对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点记为叶结点，其类别标记为训练样例数最多的类别。我们直接看西瓜书上的例子，其中{1,2,3,6,7,10,14,15,16,17}为训练集，{4,5，8,9，11,12,13}为验证集。（1）在未划分前，根据训练集，类别标记为训练样例数最多的类别，由于训练集中的好瓜与坏瓜是相同多的类别，均为5，因此任选其中一类，书中选择了好瓜作为标记类别。当所有节点集中在根节点，所有训练集属于

决策树剪枝：预剪枝、后剪枝

weixin_42080490的博客

10-02

6873

一棵完全生长的决策树会面临一个很严重的问题，即过拟合。当模型过拟合进行预测时，在测试集上的效果将会很差。因此我们需要对决策树进行剪枝，剪掉一些枝叶，提升模型的泛化能力。 决策树的剪枝通常有两种方法，预剪枝（ Pre-Pruning ）和后剪枝( Post-Pruning ）。 预剪枝（ Pre-Pruning ） 预剪枝 ，即在生成决策树的过程中提前停止树的增长。核心思想是在树中结点进行扩展之前，先计算当前的划分是否能带来模型泛化能力的提升，如果不能，则不再继续生长子树。此时可能存在不同类别的样本同时存

决策树（二）——决策树的剪枝（预剪枝和后剪枝）

NLP翟

08-03

1万+

决策树的剪枝什么是决策树的剪枝？为什么要剪枝？剪枝策略的分类预剪枝优缺点后剪枝后剪枝算法的分类优缺点奥卡姆剃刀定律预告andTODOReference 什么是决策树的剪枝？对比日常生活中，环卫工人在大街上给生长茂密的树进行枝叶的修剪。在机器学习的决策树算法中，有对应的剪枝算法。将比较复杂的决策树，化简为较为简单的版本，并且不损失算法的性能。为什么要剪枝？剪枝是决策树算法防止过拟合的一种手段，...

决策树的预剪枝

躺平yyds的博客

05-13

4706

决策树的预剪枝 优秀的决策树：优秀的决策树不仅对数据具有良好的拟合效果，而且对未知的数据具有良好的泛化能力，优秀的决策树具有以下优点：深度小叶节点少深度小并且叶节点少拟合分为：过拟合和欠拟合过拟合：训练误差低，测试误差大，即对已知训练数据拟合很好，但是未知数据的预测能力不好，训练出来的模型结构一般较复杂。欠拟合：训练误差高，测试误差低，即对已知的训练数据的拟合误差要大于未知数据的，训练出来的模型过于简单。模型的复杂度一般体现在：深度大小和也节点数量，深度小且叶节点少则模型简单，深度

决策树的剪枝

guanze1的博客

11-21

9279

决策树剪枝

细讲sklearn决策树后剪枝(带例子)

ywj_1991的博客

02-19

9504

为预防模型过拟合，我们可以采用预剪枝和后剪枝方法，1. 预剪枝:树构建过程，达到一定条件就停止生长，2. 后剪枝是等树完全构建后，再剪掉一些节点。本文讲述后剪枝，预剪枝请参考《sklearn决策树预剪枝》一.CCP后剪枝简介，后剪枝一般指的是CCP代价复杂度剪枝法（Cost Complexity Prun.一.CCP后剪枝简介二.剪枝操作过程(1)查看CCP路径(2)根据CCP路径剪树

机器学习---预剪枝、后剪枝（REP、CCP、PEP、）

weixin_43961909的博客

09-04

3442

14， 15， 16， 17} 的样例组成训练集，编号为 {4， 5， 8， 9， 11， 12， 13} 的样例组成验证。此时，验证集中编号为 {4， 5， 8，11， 12} 的样例被分类正确，验证集精度为5 / 7 ∗ 100% =在⽤属性"脐部"划分之后，上图中的结点2、3、4分别包含编号为 {1，2，3， 14}、 {6，7， 15，其中 T0 为原有的完全决策树，Tm为。例如对下表的⻄⽠数据集，将其随机划分为两部分，其中编号为 {1，2，3，6， 7， 10，则编号为 {4，5，8} 的样例。

决策树_（预剪枝和后剪枝）_以判断西瓜好坏为例

qq_45067943的博客

11-27

5961

剪枝的目的：剪枝的目的是为了避免决策树模型的过拟合。因为决策树算法在学习的过程中为了尽可能的正确的分类训练样本，不停地对结点进行划分，因此这会导致整棵树的分支过多，也就导致了过拟合。决策树的剪枝策略最基本的有两种：预剪枝（pre-pruning）和后剪枝（post-pruning）： 预剪枝（pre-pruning）：预剪枝就是在构造决策树的过程中，先对每个结点在划分前进行估计，若果当前结点的划分不能带来决策树模型泛化性能的提升，则不对当前结点进行划分并且将当前结点标记为叶结点。 后剪枝（post-pr

机器学习-决策树（Decision Tree）进阶篇之剪枝

m0_52053228的博客

11-20

3640

剪枝（pruning）是决策树学习算法对付“过拟合”的主要手段。决策树剪枝的基本策略有“预剪枝”（prepruning）和“后剪枝”（postpruning）。 预剪枝是指在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点得划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点 后剪枝则是先从训练集生成一棵完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。

机器学习：决策树的预剪枝和后剪枝

zyf2589237189的博客

11-23

2414

机器学习:决策树的剪枝

决策树剪枝

qq_59258613的博客

03-13

1955

因为决策树算法在学习的过程中为了尽可能的正确的分类训练样本，不停地对结点进行划分，因此这会导致整棵树的分支过多，也就导致了过拟合，所以需要使用剪枝避免决策树模型的过拟合。在构造决策树的过程中，先对每个结点在划分前进行估计，若果当前结点的划分不能带来决策树模型泛华性能的提升，也就是没有提高验证集的精度，则不对当前结点进行划分并且将当前结点标记为叶结点。如：第一步：计算信息增益值，选择脐部做分割标准划分前：所有好瓜和坏瓜的比例都一样，随便选择，在这里我选择都标记为好瓜，精度为42.9%

决策树进阶——剪枝处理

qq_53951219的博客

11-24

1006

剪枝

什么是决策树的预剪枝

2301_82143894的博客

03-15

914

决策树的预剪枝（Pre-pruning）是一种在决策树构建过程中提前停止树生长的技术，旨在防止模型过于复杂（即过拟合）。它通过在树的分裂阶段设置一些限制条件，来控制树的深度或复杂度，而不是等到树完全生长后再进行修剪（后者称为后剪枝，Post-pruning）。如果条件不满足，则停止该节点的分裂，将其标记为叶节点，并直接赋予一个类别标签（通常是该节点样本中最常见的类别）。如果当前节点的样本纯度（如大多数样本属于同一类）已达到某个阈值（如 90%），则停止分裂。