Hard Mining方法总结

最新推荐文章于 2024-04-07 16:21:51 发布

原创

最新推荐文章于 2024-04-07 16:21:51 发布 · 1.3k 阅读

·

1

·

这篇博客探讨了目标检测中的难例挖掘（OHEM）策略，包括正负样本的概念和分类，以及在线和离线OHEM的具体实现。OHEM通过挑选高损失样本进行训练，以提高分类器性能。然而，这种方法可能导致数据不平衡。RetinaNet通过Focal Loss解决了这一问题，降低了简单负样本的影响，专注于难例。Focal Loss是一种动态调整损失权重的机制，有助于优化训练过程。博客还介绍了Focal Loss的计算方式及其对训练初期positive样本概率的增强策略。

一、相关概念

对于分类来说：

正样本：正确分类出的类别对应的样本
负样本：不是正样本的所有样本
难分正样本（hard positives）:错分成负样本的正样本，也可以是训练过程中损失最高的正样本
难分负样本（hard negatives）:错分成正样本的负样本，也可以是训练过程中损失最高的负样本
易分正样本（easy positive）：容易正确分类的正样本，该类的概率最高。也可以是训练过程中损失最低的正样本
易分负样本（easy negatives）：容易正确分类的负样本，该类的概率最高。也可以是训练过程中损失最低的负样本

二、OHEM方法

1. 核心思想

用分类器对样本进行分类，把其中错误分类的样本（hard negative）放入负样本集合再继续训练分类器。

2. 具体方法

关键是找出影响网络性能的一些训练样本，针对性的进行处理
在这里插入图片描述
简单来说就是把难分的样本，剔除出来，放到另一个地方里面。最后将难分样本，给负样本，加强训练分类器。但是，这样又会造成数据不平衡的问题

方法：离线和在线
– 离线
在样本训练过程中，会将训练结果与GroundTruth计算IOU。通常会设定一个阈值（0.5），结果超过阈值认为是正样本，低于一定阈值则认为是负样本，然后扔进网络中训练。但是，随着训练的进行，这样的策略也许会出现一个问题，那就是正样本的数量会远远小于负样本，这样会导致数据的分布不平衡，使得网络的训练结果不是很好。当然有些论文作者对这种导致不平衡的数据，提出了一种对称的模型。就是类似上图，将Hard Positive也

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。