论文阅读《Few-Shot Object Detection via Classification Refinement and Distractor Retreatment》

最新推荐文章于 2026-03-15 01:01:24 发布

原创

最新推荐文章于 2026-03-15 01:01:24 发布 · 1.6k 阅读

标签

#机器学习 #深度学习

本文探讨了小样本目标检测中的误定位和误分类问题，指出TFA方法在IoU-awareness上的局限性。文章提出IOU-aware classification branch和discriminability enhancement branch来解决这些问题，并引入Few-Shot Correction Network（FSCN）进行分类细化。此外，通过Semi-Supervised Distractor Utilization Loss处理未标注的干扰实例，以及 Confidence-Guided Dataset Pruning（CGDP）来优化数据集。实验结果显示，这些方法在COCO和PascalVOC数据集上提高了检测性能。

Background ＆ Motivation

文章首先对小样本目标检测存在的问题进行了分析，指出 TFA（Two-stage Fine-tune Approach）影响最后检测结果的有一部分原因是 IoU awareness 和 category discriminability。前者在文中的描述如下，是指将一些 IoU 得分低的检测框也分为 positive，可以理解为误定位。

Models that are weak in the first aspect often predict poorly localized hard negatives as “confident” foregrounds of the same category.

后者指的是误分类，很多论文以及我们自己的实验结果都证实了这一问题。往往模型定位的精度很高，但存在着大量的误分类，这是本文的一个 Motivation。文中列出了分别纠正这两个类别的错误后精度的提升情况：

可以看出纠正误分类对模型的精度提升最大，以 dog 为例具体的做法：

The effect of the first type false positives (objectness error) can be eliminated by erasing the prediction score for its corresponding semantic category “dog”, while scores for other categories are preserved.

To eliminate the second type false positives (confusion error), scores for all other categories except “dog” are erased.

这样就证明了 TFA 可以很好的应对误定位问题，而应对不了误分类问题，也就是说 TFA 是 IoU-awareness 的。文章认为应对不了误分类的原因是 Faster Rcnn 的 cls head 和 reg head 是不适合小样本检测任务的，因为 cls head 希望学习到平移不变（translation-invariant）的特征而 reg head 希望学习到对平移敏感（translation-covariant，因为需要对其定位）的特征。这两个完全相反的学习目标一定是对模型精度存在影响，之前的文章《Revisiting RCNN: On awakening the classification power of Faster RCNN》是第一次提出这个观点。而如何应对这一问题，则是本文的另一个 Motivation。

Moreover，文章注意到了一个之前大家一直忽略的一个问题，distractor。也就是一些 Novel 类的实例出现在了 Base 类的数据中，但没有标注。这些实例被视为了背景，而在用 Novel 类数据微调的时候我们又告诉模型这是前景，这样就会影响模型的泛化能力。

文章基于 Faster Rcnn 提出了两个分支：IOU-aware classification branch 和 discriminability enhancement branch，来应对上述前两个问题。前者为每一个 proposal 产生精确的得分，就在 Faster Rcnn 上实现。后者则作为一个尺度不变的分类器，与 Faster Rcnn 完全解构不共享权重并为其提供额外的 cls refinement，文中称作 Few-Shot Correction Network（FSCN）。

找到 Base 中的这些 distractor 后设计了一个 Semi-Supervised Distractor Utilization Loss 来将这些 distractor 充分利用起来，用来缓解数据量不足的问题而无需再标注。同时为了应对 distractor，文章为 TFA 和 FSCN 都精心设计了 retreatment，称作 Confidence-Guided Dataset Pruning（CGDP）。通过自监督学习的方法在最大程度上排除那些 distractor，使数据集更适合小样本检测任务。

Approach

最低0.47元/天解锁文章