实时域自适应检测SOTA方案RT-DATR，刷新多个跨域检测榜单！

最新推荐文章于 2026-04-10 09:51:41 发布

原创最新推荐文章于 2026-04-10 09:51:41 发布 · 1.4k 阅读

11 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#域自适应 #域泛化 #迁移学习 #半监督 #实时目标检测器

论文：RT-DATR:Real-time Unsupervised Domain Adaptive Detection Transformer with Adversarial Feature Learning

Github: https://github.com/Jeremy-lf/RT-DATR

一、Abstract

尽管基于CNN和变换器的域自适应对象检测器在跨域检测任务中取得了重大进展，但令人遗憾的是，基于Transformer的实时检测器的域自适应尚未得到探索。直接应用现有的域自适应算法已被证明是次优的。本文提出了一种简单高效的实时域自适应检测变换器RT-DATR。基于RT-DETR作为我们的基础检测器，我们首先引入了一个局部对象级特征对齐模块，以显著增强对象传输过程中域不变性的特征表示。此外，我们引入了一个场景语义特征对齐模块，旨在通过对齐场景语义特征来提高跨域检测性能。最后，我们引入了一个域查询并将其与对象查询解耦，以进一步对齐解码器层内的实例特征分布，减少域间隙，并保持判别能力。各种基准测试的实验结果表明，我们的方法优于当前最先进的方法。

二、Introduction

目标检测是计算机视觉中的一项基本任务，侧重于图像中目标的定位和分类。它在各个领域都有不同的应用，包括自动驾驶、安全监控和工业生产。然而，大多数检测器严重依赖标记的训练数据，当测试环境与训练条件不同时，它们容易受到性能下降的影响。天气、相机角度和跨城市场景的变化等因素会显著影响其效果。这种现象，即由于训练和测试数据分布之间的差异而导致的性能下降，通常被称为域偏移。

为了应对这一挑战，研究越来越侧重于开发用于对象检测的无监督域自适应（UDA）算法。这些方法包括对抗性特征学习、图像翻译和使用师生框架的半监督方法。主要目标是使用来自源域的标记数据和来自目标域的未标记数据来训练在目标域中表现良好的检测器。例如，一些研究通过在检测器中加入域分类器和梯度反转层来更快地提高目标域的性能。然后，他们通过最小化分类器的损失同时最大化检测器的损失来学习域不变特征。此外，使用均值教师框架的方法通过教师和学生模型之间的交互来关注学习策略，以使检测器适应跨领域任务。

许多现有的域自适应方法都是为基于CNN的检测器精心设计的。然而，随着变换器在目标检测中的出色性能，基于变换器的域自适应目标检测受到了广泛关注，并取得了显著进展。与基于CNN的检测器不同，基于变换器的检测器通过对齐不同模块的特征分布来解决域偏移问题。这是通过集成特定于域的查询或利用文本到图像模型从源域合成类似于目标域的数据来实现的。这些方法逐步缩小了域差距，在目标域中实现了卓越的性能。

然而，域自适应检测变换器面临着几个挑战。一方面，它们在跨域检测中的高计算复杂性和次优性能显著限制了这些模型在现实世界场景中的适用性。尽管基于变压器的实时检测器在各个领域得到了广泛的应用，但它们的跨域有效性仍然没有得到充分的探索。另一方面，现有的域自适应方法往往严重依赖于特定的检测器架构。这不仅使得将这些方法直接转移到其他检测器变得困难，还可能增加模型的推理延迟，从而无法满足实际应用的需求。

为了应对这些挑战，我们提出了RT-DATR，据我们所知，它是第一个实时域自适应检测变换器。如图1所示，它在不同的基准测试中取得了最先进的性能。我们选择RT-DETR作为我们的基础探测器，因为它是目前最流行和最广泛使用的DETR型实时探测器。我们引入的附加模块不会增加推理延迟，从而确保了模型的高性能。具体来说，我们提出了一个局部对象级特征对齐（LOFA）模块和一个场景语义特征对齐（SSFA）模块。前者可以基于多尺度特征实现像素级局部对齐，同时增强对象区域的特征对齐。后者全局对齐编码的高级场景语义特征，从而能够学习可转移的领域不变特征。同时，我们提出了一个实例特征对齐（IFA）模块，该模块引入了一个域查询并将其与对象查询解耦。该模块旨在通过对抗性学习来缩小领域差距，同时在预测过程中保持辨别能力。我们的主要贡献可以概括如下：

据我们所知，我们提出了RT-DATR，这是第一个基于RT-DETR的实时域自适应检测变换器。其实时性与强大的跨域检测性能相结合，使其在实际应用中具有很高的价值。
我们开发了三个不同的对抗性特征学习模块，其中包括用于对齐局部对象级特征和场景语义特征的组件。这些模块在对象级别和全局上利用对抗学习来获取领域不变特征并增强对象的可转移性。此外，我们结合了域查询和一致性损失，以进一步最小化域差距并增强模型的鲁棒性。值得注意的是，这些模块都是无推理的。
我们进行了广泛的实验，并将其与当前最先进的方法进行了比较。RT-DATR可以在多个广泛研究的领域的自适应基准上实现更好的目标检测性能。

3. Related Work

Transformer-based Object Detection

DETR是第一个基于变换器的端到端目标检测器。它通过使用匈牙利匹配算法实现了一对一的集预测，而不依赖于锚框和非最大值抑制等组件。尽管DETR具有端到端预测的优点，但它存在收敛速度慢和计算成本高的问题。为了解决这些问题，Deformable DETR引入了一种可变形注意力模块，该模块将注意力集中在参考点周围，显著降低了计算成本并加速了训练收敛。DINO采用混合查询选择策略来更好地进行查询初始化，并引入了“向前看两次”方案来优化框预测。RT-DETR是第一个基于变压器的实时检测器，通过高效的混合编码器设计和最小的不确定性查询选择，在保持高精度的同时实现了显著的速度提升。RT-DETRv2引入了一系列“技能包”，以提高灵活性和实用性，同时优化训练策略以提高表现。RT-DETRv3提出了一种分层密集辅助监督方案，以进一步提高检测精度和收敛速度。

在本文中，我们选择RT-DETR作为我们的基础检测器，因为它是目前最流行的DETR式实时检测器。为了确保RT-DATR的效率，我们设计了模块来提高跨域检测性能，而不会引入额外的推理延迟。

UDA for Object Detection

然而，与基于CNN的域自适应对象检测不同，关于采用DETR风格架构进行域自适应检测任务的研究仍然相对较少。SFA提出了一种通过引入域查询来分别对齐编码器和解码器的特征的序列特征对齐方法，取得了有前景的结果。AQT进一步将对抗性特征对齐方法集成到检测变换器中，并实现了空间、通道和实例级特征对齐，以产生域不变特征。BiADT提出了一种新的可变形注意力和自注意力方法，旨在实现双向域对齐。DA-DETR通过融合CNN和Transformer信息，实现了从标记源域到未标记目标域的有效转换。MRT通过学生模型的编码器和辅助解码器对目标图像的多尺度特征图进行掩码，并重构特征以帮助学生模型捕获目标域特征。MTM提出了掩蔽特征对齐方法，以更稳健的方式减轻域偏移。Blenda通过从中间域生成伪样本及其相应的软域标签来执行自适应训练。受上述工作的启发，我们首次探索了将对抗性特征学习策略与基于实时变换器的检测器相结合，以提高跨域检测性能。

4. Method

Task Defination and Overview

值得注意的是，我们的重点不是开发一种新的实时物体探测器。相反，我们的努力致力于提高现有基于Transformer的实时检测器的跨域检测性能，这是该领域的第一项研究工作。

在无监督域自适应中，训练数据包括标记的源图像Ds（表示为{xs，ys}）和未标记的目标图像Dt（表示为{xt}）。我们的目标是训练一个在目标域数据上表现良好的对象检测器。我们提出的方法RT-DATR的总体架构如图2所示。RT-DETR是我们的基础检测器，增强了三个用于域自适应的特征对齐模块。在监督学习中，源域图像被输入模型，并通过计算RT-DETR的预测与GT之间的损失（记为Ldet）来施加约束。对于无监督学习，源域和目标域数据都用作输入，并通过LOFA、SSFA和IFA模块进行优化，以驱动对抗性胎牛对齐，表示为Ladv。

Local Object-level Feature Alignment

不同检测器组件内的对抗特征对齐已被证明是一种简单而有效的域自适应方法。然而，研究表明，在基于Transformer的检测器中直接对齐CNN骨干特征通常会降低性能。因此，后续的研究将重点转移到对齐其他模块中的特征分布或通过领域查询提取领域特定特征上。相比之下，我们强调骨干网作为学习域不变特征的主要模块的关键作用。主干提取的多尺度特征捕获了丰富的局部信息，如纹理和颜色，这对域自适应至关重要。为了保留这些信息，我们采用局部特征对齐而不是全局图像级对齐，以确保稳健的特征匹配。此外，我们增强了前景对象级对齐，提高了对象的可转移性，并提高了跨域任务中的检测性能。

在图2a中，我们说明了如何通过骨干网络处理来自源域和目标域的数据，以提取多尺度特征f1、f2、f3。在此之后，在每个特征级别集成梯度反转层，并采用包括Conv1x1层的域鉴别器来推导变换后的多尺度特征f′1，f′2和f′3.随后，对每个像素进行域分类，源域标记为0，目标域标记为1。对齐局部特征的优化目标定义如下：

其中dde表示域标签，Db表示骨干的域鉴别器，fi表示多尺度特征中的第i层（i=1,2，…，M），s（u，v）表示特征层内的位置信息。此外，我们的目标是加强骨干网内的对象级特征对齐，这可以大大提高对象在跨域场景中的可转移性。我们根据特征图中每个像素的位置分配不同的分类损失权重。具体来说，对于对象区域内的像素，分类损失权重被设置为1.5，对于外部的像素，则设置为0。

对于源域图像，通过将地面真实边界框映射到骨干的特征层，可以直接得出有效的对象建议。对于目标域图像，通过将解码器预测的边界框投影到骨干的多尺度特征层上来识别有效的对象区域，仅保留置信度得分超过0.5的那些。我们的方法优先考虑对象区域内的特征对齐，同时忽略特定的类别信息，从而减轻了通常与伪标签相关的错误传播。对象级对齐的完整优化过程公式如下：

其中wi表示与当前特征图fi大小相同的掩模矩阵，包含对象的区域被赋予1.5的值，其余区域被赋予0的值。最后，骨干网的总体损耗可以描述为：

Scene Semantic Feature Alignment

检测变换器架构通常由三个主要模块组成：主干、编码器和解码器。基于CNN的主干主要提取本地化的低级语义特征，而变换器则使用自我关注来捕获远程依赖关系。随着网络深度的增加，编码器逐步编码更丰富的场景级语义信息。为了解决领域转换问题，我们使用了一种场景语义特征对齐策略，该策略有助于学习领域不变特征，提高跨领域泛化能力。

具体来说，如图2b所示，编码器生成多尺度特征p1、p2和p3，然后由MLP层组成的鉴别器使用这些特征来区分域。最终，该模型通过使用GRL最小化鉴别器的损失，同时最大化编码器层的特征误差，来学习表示域不变特征。优化过程可以表示如下：

其中pj表示第j层特征（含j=0,1,...，L），De表示编码器内的鉴别器。

Instance Feature Alignment and Consistency Loss

尽管通过对齐局部对象级和场景语义特征实现了骨干和编码器特征之间的域自适应，但解码器中仍然存在对源域的偏见。因此，解码器中的特征对齐至关重要。考虑到在DETR风格的检测器中，对象查询被用作查询对象的向量表示来描述对象，每个对象查询对应于一个预测框，并包含其类别和位置信息。因此，通过对抗学习直接利用对象查询特征进行优化可能会干扰检测性能，并且不是最佳解决方案。因此，我们在解码器中引入了一个实例特征对齐模块，如图2c所示。我们首先初始化一个域查询，然后使用多头注意力实现的交叉注意力从对象查询中提取与实例相关的特征。值得注意的是，该交叉关注层不与解码器中的交叉关注共享参数，交叉关注层的数量与解码器层的数量一致。我们认为，这种解耦查询可以在保持模型判别能力的同时缓解领域差距。具体流程如下：

这里，q denotes表示域查询，ire表示解码器的层索引（i=0,1，…，N），而kand则由对象查询提供。Dd表示解码器内的鉴别器。

与源域数据不同，目标域数据不能使用GT对检测损失进行优化。现有的解决方案通常采用均值教师框架，其中通过教师模型获得伪标签，并利用一致性约束来增强目标域图像的学习。为了监督目标域数据，我们根据现有的对抗性损失，进一步调整解码器不同层的预测分布，包括类别信息。这种方法在不损害其原始检测能力的情况下增强了模型的鲁棒性。我们使用JS散度来衡量不同层之间类别分布的差异。整个过程表示如下：

Total Loss

综上所述，该模型的总体优化目标如下：

其中Ldet表示检测损失，λ1、λ2、λ3和λ4分别表示不同损失项的权重系数。

5. Experiments

我们在多个跨域数据集上评估了我们的方法，包括weather adaptation to Foggy Cityscapes, scene adaptation (Cityscapes to BDD100K artistic-to-real adaptation (Sim10K to Cityscapes) and cross-camera adaptation (KITTI to Cityscapes)。所有结果表明，本文提出的方法对不同场景数据集的各种领域自适应任务具有很强的适应性，显著提高了算法的泛化性能。

Implemention Details

我们选择RT-DETR作为我们的基础检测器，利用ResNet-34和ResNet-50作为骨干网络。学习率设置为2e-4，批量大小为2。训练在8个A100 GPU上进行。对于其他设置，我们遵循RT-DETR配置，使用AdamW优化器、72个训练周期和640x640的推理大小。关于减重系数，除了λ1，其值为1.5。对于评估指标，我们报告了每个对象类别的平均精度（AP）和所有类别的平均平均精度（mAP），IoU阈值为0.5。此外，为了确保目标域的可靠初始化权重，我们在源域数据集上预训练模型。