【2D detection】Deformable DETR论文阅读记录

最新推荐文章于 2026-06-16 15:52:15 发布

原创最新推荐文章于 2026-06-16 15:52:15 发布 · 1.7k 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#计算机视觉 #深度学习 #transformer

可变形DETR通过关注特征图中的关键采样点，解决了DETR训练慢和小物体检测效果不佳的问题。该方法在保持良好性能的同时，减少了训练次数，并降低了处理高分辨率特征图的计算复杂性。论文链接和代码库已提供。

文章目录

Deformable DETR论文阅读记录

简单读一下这篇文章，记录一下一些重点部分，看看能否运用到3D 当中。
code:https://github.com/fundamentalvision/Deformable-DETR
paper:https://arxiv.org/abs/2010.04159

摘要

DETR 由于 Transformer 注意力模块在处理图像特征图方面的局限性，它存在收敛速度慢和特征空间分辨率有限的问题。为了缓解这些问题，我们提出了可变形 DETR，其注意力模块仅关注参考周围的一小组关键采样点。可变形 DETR 可以获得比 DETR 更好的性能（尤其是在小物体上），训练次数减少 10 倍。

介绍

DETR由下面两个问题：

与现有的目标检测器相比，它需要更长的训练时期才能收敛。例如，在 COCO 基准上，DETR 需要 500 个 epochs 才能收敛，这比 Faster R-CNN慢 10 到 20 倍。
DETR 在检测小物体方面的性能相对较低。现代物体检测器通常利用多尺度特征，从高分辨率特征图中检测小物体。同时，高分辨率特征图导致 DETR 不可接受的复杂性

上述问题主要归因于 Transformer 组件在处理图像特征图方面的不足。== 在初始化时，注意力模块将几乎统一的注意力权重投射到特征图中的所有像素。== 长时间的训练时期对于学习注意力权重以专注于稀疏有意义的位置是必要的。另一方面，Transformer 编码器中的注意力权重计算是平方计算 w.r.t. 像素数。因此，处理高分辨率特征图具有非常高的计算和内存复杂性。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。