Hard Mining方法总结

这篇博客探讨了目标检测中的难例挖掘(OHEM)策略,包括正负样本的概念和分类,以及在线和离线OHEM的具体实现。OHEM通过挑选高损失样本进行训练,以提高分类器性能。然而,这种方法可能导致数据不平衡。RetinaNet通过Focal Loss解决了这一问题,降低了简单负样本的影响,专注于难例。Focal Loss是一种动态调整损失权重的机制,有助于优化训练过程。博客还介绍了Focal Loss的计算方式及其对训练初期positive样本概率的增强策略。

一、相关概念

对于分类来说:

  • 正样本:正确分类出的类别对应的样本
  • 负样本:不是正样本的所有样本
  • 难分正样本(hard positives):错分成负样本的正样本,也可以是训练过程中损失最高的正样本
  • 难分负样本(hard negatives):错分成正样本的负样本,也可以是训练过程中损失最高的负样本
  • 易分正样本(easy positive):容易正确分类的正样本,该类的概率最高。也可以是训练过程中损失最低的正样本
  • 易分负样本(easy negatives):容易正确分类的负样本,该类的概率最高。也可以是训练过程中损失最低的负样本

二、OHEM方法

1. 核心思想

用分类器对样本进行分类,把其中错误分类的样本(hard negative)放入负样本集合再继续训练分类器。

2. 具体方法

关键是找出影响网络性能的一些训练样本,针对性的进行处理
在这里插入图片描述
简单来说就是把难分的样本,剔除出来,放到另一个地方里面。最后将难分样本,给负样本,加强训练分类器。但是,这样又会造成数据不平衡的问题

  • 方法:离线和在线
    – 离线
    在样本训练过程中,会将训练结果与GroundTruth计算IOU。通常会设定一个阈值(0.5),结果超过阈值认为是正样本,低于一定阈值则认为是负样本,然后扔进网络中训练。但是,随着训练的进行,这样的策略也许会出现一个问题,那就是正样本的数量会远远小于负样本,这样会导致数据的分布不平衡,使得网络的训练结果不是很好。当然有些论文作者对这种导致不平衡的数据,提出了一种对称的模型。就是类似上图,将Hard Positive也
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值