线型模型理论拓展

本文探讨了线性模型在面对多分类问题时的策略,包括OvO、OvR和MvM拆解方法,以及ECOC编码的纠错能力。同时,分析了类别不平衡问题,介绍了欠采样与过采样(如SMOTE算法)的解决方案。
AI助手已提取文章相关产品:


之前的 线性模型笔记讨论的是简单的线性回归、对数几率二分类和线性判别二分类问题,但是在现实情况下,类别的数目可能远多于2种,切每个类别的样本之间存在着不平衡性等情况。这就是本节笔记要讨论的内容。

1. 多分类问题

多分类问题的基本策略是利用二分类问题解决多分类问题。假设一组数据有N个类别,C1、C2、……、Cn,多分类学习器的基本思路是“拆解法”,即将多分类任务拆解为若干个二分类任务求解。对每个二分类任务进行训练得到若干个分类器;在测试时对这些分类器的预测结果进行集成,获得最终的多分类结果。

经典的拆分策略有三种:一对一(one vs one,OvO)、一对其余(one vs rest,OvR)和多对多(many vs many,MvM)。对于给定的数据集D一共有m个样本,该数据集中所有样本分为N类,其中N>2。

1.1 OvO拆解

OvO的策略可以总结为如下几步,

(1)将N个类别两两组合,在不重复的情况下,一共产生N(N-1)/2个组合。
(2)每一个组合对应了一个二分类任务,假设其中一个组合为(Ci,Cj),则会针对这两个类别训练得到一个分类器,该分类器把数据集D中的 Ci 类样本作为正例,Cj 类样本作为反例进行训练。得到一个针对 Ci 类和 Cj 类的分类器。
(3)重复步骤2中的操作,最终得到N(N-1)/2个分类器。
(4)将一个测试样本作为输入数据分别传入到步骤3中得到的N(N-1)/2个分类器中。可以得到N(N-1)/2个预测结果 ,把这些结果中预测最多的类别作为最终的分类结果。

将上面所描述的过程使用下图进行说明,
在这里插入图片描述

1.2 OVR拆解

OvR的步骤可以总结如下,

(1)将N个类中的一个类作为正例,其余类作为反例。这样可以得到N种不同的组合,每个组合对应了一个二分类问题。
(2)针对上面N种二分类问题进行训练,总共可以得到N个分类器。
(3)使用一个样本点进行测试时,如果N个分类器中只有一个分类器预测该样本为正例,则将该样本归类到该分类器对应的正例类别中;反之,如果出现多个分类器预测该样本为正例的情况,则通常考虑这几个分类器的置信度,选择置信度最高的分类器,将该样本归类到这一分类器对应的正例类别中。

OvR的操作具体如下,同样是使用与1.1中一样的数据集进行演示,

您可能感兴趣的与本文相关内容

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值