【目标检测】【CVPR 2025】DEIM：基于优化匹配机制的DETR模型，实现快速收敛

原创

于 2025-03-14 13:16:33 发布 · 5.5k 阅读

标签

引言

目标检测是计算机视觉领域中的一个核心任务，其目标是从图像中识别并定位出感兴趣的物体。近年来，基于Transformer的目标检测方法，尤其是DETR（DEtection TRansformer），因其端到端的检测框架和简洁的架构设计，受到了广泛关注。然而，DETR在训练过程中存在收敛速度慢的问题，这限制了其在实际应用中的广泛使用。为了解决这一问题，CVPR 2025上提出的DEIM（DETR with Enhanced Matching Mechanism）通过引入改进的匹配机制，显著加快了DETR的收敛速度。本文将详细介绍DEIM的核心思想、技术细节及其在目标检测中的应用。

一、DETR简介

DETR是由Facebook AI团队在2020年提出的一种基于Transformer的目标检测方法。与传统的基于卷积神经网络（CNN）的目标检测方法不同，DETR摒弃了复杂的锚框设计和后处理步骤（如非极大值抑制，NMS），采用了一种端到端的检测框架。DETR的核心思想是将目标检测问题转化为一个集合预测问题，通过Transformer编码器-解码器结构直接预测出图像中的目标类别和边界框。

DETR的主要组成部分包括：
1. CNN骨干网络：用于提取图像特征。
2. Transformer编码器：对图像特征进行全局建模。
3. Transformer解码器：通过查询向量（query）生成目标预测。
4. 二分图匹配：将预测结果与真实标签进行匹配，计算损失。

尽管DETR在目标检测任务中表现出色，但其训练过程需要较长时间才能收敛，这主要是由于二分图匹配机制在早期训练阶段难以有效匹配预测结果与真实标签。