1.决策树基本流程
1、下列选项哪个是决策树的预测过程?
- 将测试示例从一个中间节点开始,沿着划分属性所构成的“判定测试序列”下行,直到叶节点
- 将测试示例从一个中间节点开始,沿着划分属性所构成的“判定测试序列”上行,直到根节点
- 将测试示例从叶节点开始,沿着划分属性所构成的“判定测试序列”上行,直到根节点
- 将测试示例从根节点开始,沿着划分属性所构成的“判定测试序列”下行,直到叶节点
2、决策树学习的策略是什么?
- 分而治之
- 集成
- 聚类
- 排序
3、决策树训练时,若当前结点包含的样本全属于同一类别,则____(需要/无需)划分
无需
2.信息增益划分
1、信息熵是度量样本集合 [填空1] 最常用的一种指标
- 纯度
- 对称差
- 大小
- 重要性
2、以下哪个选项是信息增益的定义?
- 划分前的信息熵-划分后的信息熵
- 划分后的信息熵-划分前的信息熵
- 划分前的信息熵/划分后的信息熵
- 划分后的信息熵+划分前的信息熵
本题选A。注意到信息熵是衡量样本纯度的概念,相对于物理中的“无序程度”,信息熵越大则代表样本无序程度大,对应样本纯度低;在决策树进行划分后,我们希望的是样本的纯度变大,对应于信息熵应该为熵减的过程;故我们想要求得的信息增益为前后两者之差,为得到一个正值,我们选取前者减后者。
3、在二分类任务中,若当前样本集合的正类和负类的数量刚好各一半,此时信息熵为____(保留一位小数)
1.0
本题答案为1.0。注意到信息熵的计算公式为Σ-pi log(pi),而我们用比特为单位时取的底数正是2,在这里,我们进行计算,信息熵应为-1/2*(-1)±1/2*(-1)=1,答案要求保留一位小数,故在这里填1.0即可。
3.其他属性划分
1、下列说法错误的是()
- CART算法在候选属性集合中选取使划分后基尼指数最大的属性
- 划分选择的各种准择对泛化性能的影响有限
- 划分选择的各种准择对决策树尺寸有较大影响
- 相比划分准则,剪枝方法和程度对决策树泛化性能的影响更为显著
本题选A。首先注意到基尼指数和信息熵一样,是衡量一个随机变量的纯度的,其定义为Σpi(1-pi),从定义可以看出随机变量越随机,亦即越不纯,基尼指数越大;我们希望的是更快做好分类,当然是要选取划分后基尼指数最小的属性,这样达到的增益是最大的。对于B选项,影响决策树泛化性能的更为直接的因素是减枝。对于C选项,不同的划分方法准则对决策树的深度宽度等影响较小。对于D,D是正确的。
2、增益率的表达式是Gain_ratio(D,a)=()
- Gain(D,a)+IV(a)
- Gain(D,a)-IV(a)
- Gain(D,a)*IV(a)
- Gain(D,a)/IV(a)
3、对西瓜数据集2.0(《机器学习》教材第76页),划分前的信息熵为0.998,若使用编号属性进行划分,则信息增益为____(保留3位小数)
0.998
本题答案为0.998。注意到对编号属性划分后,每个类里只有一个样本,故信息熵为0,故信息增益就是划分前的信息熵,故本题应该填0.998。
4.决策树的剪枝
1、剪枝是决策树学习算法对付什么现象的主要手段?
- 标记噪声
- 数据少
- 过拟合
- 欠拟合
2、提前终止某些分支的生长,这个策略的名称是什么?
- 预剪枝
- 后剪枝
- 不剪枝
- 随机剪枝
3、决策树剪枝的基本策略有“____”和“后剪枝”
预剪枝
5.缺失值的处理
1、决策树算法一般是如何对缺失属性进行处理的?
- 仅使用无缺失的样例
- 对缺失值进行随机填充
- 用其他属性值预测缺失值
- 利用“样本赋权,权重划分”的思想解决
2、决策树处理缺失值的基本思路是“样本赋权,权重划分”,其中“权重划分”指的是以下哪个选项?
- 给定划分属性,若样本在该属性上的值缺失,会按进入权重最大的一个分支
- 给定划分属性,若样本在该属性上的值缺失,会按权重随机进入一个分支

本文围绕决策树算法展开,介绍了其基本流程、预测过程和学习策略。阐述了信息增益划分、其他属性划分方法,如基尼指数、增益率等。还讲解了决策树的剪枝策略,包括预剪枝和后剪枝,以及缺失值的处理思路,最后通过章节测试巩固知识。

4896

被折叠的 条评论
为什么被折叠?



