西瓜书习题 - 4.决策树

原创

已于 2022-12-16 19:50:42 修改 · 2.2w 阅读

·

31

·

标签

#决策树 #算法

于 2022-10-25 16:58:17 首次发布

本文围绕决策树算法展开，介绍了其基本流程、预测过程和学习策略。阐述了信息增益划分、其他属性划分方法，如基尼指数、增益率等。还讲解了决策树的剪枝策略，包括预剪枝和后剪枝，以及缺失值的处理思路，最后通过章节测试巩固知识。

1.决策树基本流程

1、下列选项哪个是决策树的预测过程？

将测试示例从一个中间节点开始，沿着划分属性所构成的“判定测试序列”下行，直到叶节点
将测试示例从一个中间节点开始，沿着划分属性所构成的“判定测试序列”上行，直到根节点
将测试示例从叶节点开始，沿着划分属性所构成的“判定测试序列”上行，直到根节点
将测试示例从根节点开始，沿着划分属性所构成的“判定测试序列”下行，直到叶节点

2、决策树学习的策略是什么？

分而治之
集成
聚类
排序

3、决策树训练时，若当前结点包含的样本全属于同一类别，则____（需要/无需）划分

无需

2.信息增益划分

1、信息熵是度量样本集合 [填空1] 最常用的一种指标

纯度
对称差
大小
重要性

2、以下哪个选项是信息增益的定义？

划分前的信息熵-划分后的信息熵
划分后的信息熵-划分前的信息熵
划分前的信息熵/划分后的信息熵
划分后的信息熵+划分前的信息熵

本题选A。注意到信息熵是衡量样本纯度的概念，相对于物理中的“无序程度”，信息熵越大则代表样本无序程度大，对应样本纯度低；在决策树进行划分后，我们希望的是样本的纯度变大，对应于信息熵应该为熵减的过程；故我们想要求得的信息增益为前后两者之差，为得到一个正值，我们选取前者减后者。

3、在二分类任务中，若当前样本集合的正类和负类的数量刚好各一半，此时信息熵为____（保留一位小数）

1.0

本题答案为1.0。注意到信息熵的计算公式为Σ-pi log(pi),而我们用比特为单位时取的底数正是2，在这里，我们进行计算，信息熵应为-1/2*(-1)±1/2*(-1)=1，答案要求保留一位小数，故在这里填1.0即可。

3.其他属性划分

1、下列说法错误的是（）

CART算法在候选属性集合中选取使划分后基尼指数最大的属性
划分选择的各种准择对泛化性能的影响有限
划分选择的各种准择对决策树尺寸有较大影响
相比划分准则，剪枝方法和程度对决策树泛化性能的影响更为显著

本题选A。首先注意到基尼指数和信息熵一样，是衡量一个随机变量的纯度的，其定义为Σpi(1-pi)，从定义可以看出随机变量越随机，亦即越不纯，基尼指数越大；我们希望的是更快做好分类，当然是要选取划分后基尼指数最小的属性，这样达到的增益是最大的。对于B选项，影响决策树泛化性能的更为直接的因素是减枝。对于C选项，不同的划分方法准则对决策树的深度宽度等影响较小。对于D，D是正确的。

2、增益率的表达式是Gain_ratio(D,a)=（）

Gain(D,a)+IV(a)
Gain(D,a)-IV(a)
Gain(D,a)*IV(a)
Gain(D,a)/IV(a)

3、对西瓜数据集2.0（《机器学习》教材第76页），划分前的信息熵为0.998，若使用编号属性进行划分，则信息增益为____（保留3位小数）

0.998

本题答案为0.998。注意到对编号属性划分后，每个类里只有一个样本，故信息熵为0，故信息增益就是划分前的信息熵，故本题应该填0.998。

4.决策树的剪枝

1、剪枝是决策树学习算法对付什么现象的主要手段？

标记噪声
数据少
过拟合
欠拟合

2、提前终止某些分支的生长，这个策略的名称是什么？

预剪枝
后剪枝
不剪枝
随机剪枝

3、决策树剪枝的基本策略有“____”和“后剪枝”

预剪枝

5.缺失值的处理

1、决策树算法一般是如何对缺失属性进行处理的？

仅使用无缺失的样例
对缺失值进行随机填充
用其他属性值预测缺失值
利用“样本赋权，权重划分”的思想解决

2、决策树处理缺失值的基本思路是“样本赋权，权重划分”，其中“权重划分”指的是以下哪个选项？

给定划分属性，若样本在该属性上的值缺失，会按进入权重最大的一个分支
给定划分属性，若样本在该属性上的值缺失，会按权重随机进入一个分支

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。