Repulsion Loss在目标检测中的实战困境:从理论假设到工程适配的深度解构
密集人群检测一直是计算机视觉领域的"硬骨头"。当行人肩并肩站立时,传统检测器的边界框往往会重叠合并,导致漏检或误检。2018年提出的Repulsion Loss看似给出了优雅的解决方案——通过让预测框"排斥"邻近非目标框来缓解遮挡问题。但当我们真正将其移植到YOLOv4等单阶段检测器时,效果却令人大跌眼镜。这背后究竟隐藏着怎样的理论假设与工程现实之间的鸿沟?
1. 重新审视Repulsion Loss的设计哲学
Repulsion Loss的论文标题直指"人群中的行人检测",其核心思想源自对现实场景的三重观察:
- 遮挡的必然性:密集场景中,目标间物理遮挡导致视觉特征相互干扰
- 边界框的竞争:相邻目标的预测框会争夺有限的锚框资源
- NMS的局限性:传统非极大值抑制会误删正确但重叠的预测
该损失函数由三个关键项构成:
| 损失项 | 数学表达 | 设计意图 | 适用阶段 |
|---|---|---|---|
| Attraction项 | Smooth L1(预测框, 目标GT) | 确保基础检测精度 | 所有检测器 |
| RepGT项 | 1-IoU(预测框, 邻近GT) | 防止预测框吸附到错误目标 | 两阶段更有效 |
| RepBox项 | IoU(预测框, 邻近预测框) | 避免预测框相互吞噬 | 依赖前置预测框 |


3962

被折叠的 条评论
为什么被折叠?



