弱监督学习 (Weakly Supervised Learning,WSL)

利用不完整、不精确或不准确的弱标签训练模型,以解决高质量标注稀缺且昂贵的核心问题。

一 原因与挑战

(1)标注成本瓶颈:监督学习依赖大量标注,成本高。

(2)弱标签优势:图像级标签代替物体框。

标注类型物体框 (强监督)图像级标签 (弱监督)
标注内容每个物体的精确边界框坐标(x,y,w,h)仅需说明图像中是否存在某类物体
标注成本极高(需在图片中精确框选每个目标)极低(只需打标签,无需定位)
任务目标检测每个物体的位置和类别在弱监督下实现定位 + 分类
适用模型Faster R-CNN, YOLO 等CAM/弱监督检测模型 (如WSDDN)

(3)挑战:噪声干扰(标签错误);信息模糊(缺乏细粒度定位);模型易过拟合弱信号。

 

二 弱监督三大类型方法

2.1 不完全监督(Incomplete Supervision)

特点:少量标注+大量无标注数据

核心方法

(1)半监督学习 (Semi-Supervised Learning)

自训练 (Self-training):初始模型预测无标注数据 → 高置信度样本加入训练集 → 迭代优化。

一致性正则化 (Consistency Regularization):对同一样本添加扰动(噪声/Dropout),强制输出相似。

熵最小化:鼓励模型对无标注数据输出高置信度预测。

(2)主动学习 (Active Learning):模型主动选择"信息量最大"的样本交给人标注。

2.2 不确切监督

特点:标签存在但粒度粗糙

核心方法

(1)多示例学习 (Multi-Instance Learning, MIL)

包 (Bag) 级别标签 → 实例 (Instance) 级预测标准假设:包为正 ⇔ 至少含一个正实例。

(2)弱监督目标检测/分割

Class Activation Mapping (CAM):利用卷积特征图定位目标(Grad-CAM 提供更优可视化)。PRM (Pixel-Region Matching):对齐图像级标签与区域特征生成分割掩码。

2.3 不准确监督

特点:标签含噪声或错误

核心方法

(1)噪声鲁棒损失函数

对称交叉熵 (Symmetric Cross Entropy):双向惩罚预测与标签偏差;

广义交叉熵 (GCE):平衡 CE 和 MAE 优点;

Bootstrapping:融合模型预测与原始标签。

(2)噪声样本处理

小损失技巧:训练后期丢弃损失小的样本(可能是正确标签或简单样本);

Co-teaching:双模型互相清洗噪声样本;

标签修正:训练过程中动态更新噪声标签。

三 挑战与应对措施

挑战应对方案
噪声导致模型过拟合Co-teaching/早停法/正则化 (Dropout)
弱信号下性能天花板集成学习/自监督预训练
伪标签质量不稳定动态阈值/多模型交叉验证
任务依赖性强 (No Free Lunch)领域自适应/元学习优化超参数
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值