西瓜书习题 - 4.决策树

本文围绕决策树算法展开,介绍了其基本流程、预测过程和学习策略。阐述了信息增益划分、其他属性划分方法,如基尼指数、增益率等。还讲解了决策树的剪枝策略,包括预剪枝和后剪枝,以及缺失值的处理思路,最后通过章节测试巩固知识。

1.决策树基本流程

1、下列选项哪个是决策树的预测过程?

  1. 将测试示例从一个中间节点开始,沿着划分属性所构成的“判定测试序列”下行,直到叶节点
  2. 将测试示例从一个中间节点开始,沿着划分属性所构成的“判定测试序列”上行,直到根节点
  3. 将测试示例从叶节点开始,沿着划分属性所构成的“判定测试序列”上行,直到根节点
  4. 将测试示例从根节点开始,沿着划分属性所构成的“判定测试序列”下行,直到叶节点

2、决策树学习的策略是什么?

  1. 分而治之
  2. 集成
  3. 聚类
  4. 排序

3、决策树训练时,若当前结点包含的样本全属于同一类别,则____(需要/无需)划分

无需

2.信息增益划分

1、信息熵是度量样本集合 [填空1] 最常用的一种指标

  1. 纯度
  2. 对称差
  3. 大小
  4. 重要性

2、以下哪个选项是信息增益的定义?

  1. 划分前的信息熵-划分后的信息熵
  2. 划分后的信息熵-划分前的信息熵
  3. 划分前的信息熵/划分后的信息熵
  4. 划分后的信息熵+划分前的信息熵

本题选A。注意到信息熵是衡量样本纯度的概念,相对于物理中的“无序程度”,信息熵越大则代表样本无序程度大,对应样本纯度低;在决策树进行划分后,我们希望的是样本的纯度变大,对应于信息熵应该为熵减的过程;故我们想要求得的信息增益为前后两者之差,为得到一个正值,我们选取前者减后者。

3、在二分类任务中,若当前样本集合的正类和负类的数量刚好各一半,此时信息熵为____(保留一位小数)

1.0

本题答案为1.0。注意到信息熵的计算公式为Σ-pi log(pi),而我们用比特为单位时取的底数正是2,在这里,我们进行计算,信息熵应为-1/2*(-1)±1/2*(-1)=1,答案要求保留一位小数,故在这里填1.0即可。

3.其他属性划分

1、下列说法错误的是()

  1. CART算法在候选属性集合中选取使划分后基尼指数最大的属性
  2. 划分选择的各种准择对泛化性能的影响有限
  3. 划分选择的各种准择对决策树尺寸有较大影响
  4. 相比划分准则,剪枝方法和程度对决策树泛化性能的影响更为显著

本题选A。首先注意到基尼指数和信息熵一样,是衡量一个随机变量的纯度的,其定义为Σpi(1-pi),从定义可以看出随机变量越随机,亦即越不纯,基尼指数越大;我们希望的是更快做好分类,当然是要选取划分后基尼指数最小的属性,这样达到的增益是最大的。对于B选项,影响决策树泛化性能的更为直接的因素是减枝。对于C选项,不同的划分方法准则对决策树的深度宽度等影响较小。对于D,D是正确的。

2、增益率的表达式是Gain_ratio(D,a)=()

  1. Gain(D,a)+IV(a)
  2. Gain(D,a)-IV(a)
  3. Gain(D,a)*IV(a)
  4. Gain(D,a)/IV(a)

3、对西瓜数据集2.0(《机器学习》教材第76页),划分前的信息熵为0.998,若使用编号属性进行划分,则信息增益为____(保留3位小数)

0.998

本题答案为0.998。注意到对编号属性划分后,每个类里只有一个样本,故信息熵为0,故信息增益就是划分前的信息熵,故本题应该填0.998。

4.决策树的剪枝

1、剪枝是决策树学习算法对付什么现象的主要手段?

  1. 标记噪声
  2. 数据少
  3. 过拟合
  4. 欠拟合

2、提前终止某些分支的生长,这个策略的名称是什么?

  1. 预剪枝
  2. 后剪枝
  3. 不剪枝
  4. 随机剪枝

3、决策树剪枝的基本策略有“____”和“后剪枝”

预剪枝

5.缺失值的处理

1、决策树算法一般是如何对缺失属性进行处理的?

  1. 仅使用无缺失的样例
  2. 对缺失值进行随机填充
  3. 用其他属性值预测缺失值
  4. 利用“样本赋权,权重划分”的思想解决

2、决策树处理缺失值的基本思路是“样本赋权,权重划分”,其中“权重划分”指的是以下哪个选项?

  1. 给定划分属性,若样本在该属性上的值缺失,会按进入权重最大的一个分支
  2. 给定划分属性,若样本在该属性上的值缺失,会按权重随机进入一个分支
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值