【多目标跟踪论文阅读笔记——Tracktor++】

最新推荐文章于 2026-03-27 05:59:55 发布

原创

最新推荐文章于 2026-03-27 05:59:55 发布 · 5.3k 阅读

标签

#目标跟踪 #计算机视觉 #深度学习 #人工智能

本文介绍了一种基于检测器的跟踪模型Tracktor++。该模型利用上一帧的检测结果进行回归预测，并通过添加ReID模型和CMC相机补偿模型达到SOTA水平。文章还分析了跟踪器在遮挡和小目标跟踪方面的局限性。

[阅读心得] 多目标跟踪经典论文——Tracktor++

写在前面

写在前面

不同于多目标跟踪领域常见的Tracking-by-Detection范式，本文提出了一种直接利用上一帧检测结果进行回归的范式，没有额外的约束或者的优化技巧，直接达到了当年的SOTA，笔者认为，在运动模型设计等方面还有很大的改进空间。

1. Abstract

首先，本文提出了一种基于bbox和检测器回归的方式进行下一帧的跟踪预测的模型Tracktor，相当于直接把检测器转变成跟踪器。同时，提出的跟踪器甚至不需要额外的跟踪数据训练、仅仅依靠训练好的two-stage检测器就能实现。
其次，通过添加ReID模型和CMC相机补偿模型，将提出的模型扩展为Tracktor++，达到了SOTA水平。
最后，论文分析了目前跟踪器的性能局限，提出了遮挡严重、目标尺寸过小是目前限制跟踪器性能的主要场景，提倡后续研究着重沿着此方向进行。

2. Related Work

目前，多目标跟踪任务在遮挡和难检测的拥挤场景下，仍然存在很大问题。
如今解决跟踪问题主要有三种思路，分别是基于图的匹配、基于外观特征的匹配、基于运动模型的匹配。但是存在各自的局限性，不能很好的解决上述场景下的跟踪问题。

基于图的匹配：将检测目标看作节点，之间的相似性作为边，将任务转化为一个图的问题。最近的工作往往尝试更复杂的建模包括引入多相机、动作识别、分割等考虑因素。这种方式的缺点在于，巨大的计算量往往没法转换成明显的跟踪性能提升。
基于外形特征：目前多数使用color-based的REID模型。这种方法的缺点在于：一旦存在穿着相似、背景或者光线干扰等因素，产生的外形特征就会出错。
基于运动模型：目前多采用匀速运动模型进行运动估计，这种方法的缺点在于：行人的运动往往更加复杂

3. Trackor++

Tracktor总体结构如图所示：
在这里插入图片描述

3.1 Object Detector

本文中主要采用两阶段的目标检测模型Faster R-CNN，包含ResNet-101和FPN，在MOT17Det数据集上进行训练（注意没有依靠任何跟踪层面的标注数据）

简单介绍一下检测流程：首先，Faster R-CNN先采用RPN网络生成众多bbox proposals。随后，通过ROI pooling提取每个proposal的特征图，输入到第二阶段的Classification Head 和Regression Head。最终，通过NMS筛选获得最终的检测结果作为输出