【CVPR2024】Few-Shot Object Detection with Foundation Models

原创

已于 2024-07-25 16:53:10 修改 · 7.9k 阅读

标签

#目标检测 #目标跟踪 #人工智能 #transformer #计算机视觉

于 2024-07-25 16:51:08 首次发布

【CVPR2024】Few-Shot Object Detection with Foundation Models

机构：哥伦比亚大学、中佛罗里达大学

论文地址：https://openaccess.thecvf.com/content/CVPR2024/html/Han_Few-Shot_Object_Detection_with_Foundation_Models_CVPR_2024_paper.html

作者简介：Ser-Nam Lim，马里兰大学帕克分校博士学位，2018年-2023年在Meta（前身Facebook）参与计算机视觉、NLP和其他AI领域的研究，研究内容主要是确保航空和电力行业的安全、检测Meta平台上的错误信息，最近专注于AI用于对用户内容的推荐，包括大语言模型（LLM）和计算机视觉交叉点的搜索引擎，2023年秋季加入中佛罗里达大学。代表工作为Visual prompt tuning。

本文主要目的是提高小样本目标检测的精度，用DINOv2预训练的模型作为视觉backbone，使用大语言模型（LLM）来对类别、查询图像这两种输入信息进行上下文小样本学习。使用精心设计的语言指令提示LLM来为每个候选区（proposal）进行分类，所使用的上下文信息包括proposal-proposal关系、proposal-class关系、class-class关系。所提出的FM-FSOD方法在多个FSOD基准数据集上取得了SOTA性能。

文章贡献/创新点

文章研究基于基础模型的小样本目标检测，重点关注视觉特征提取和上下文proposal分类。
文章使用了基于DINOv2的全Transformer检测框架实现对大量样本和小样本类别的高泛化性。
使用大语言模型简化query和support之间的建模，自动学习丰富的上下文信息。
在PASCAL VOC和MSCOCO小样本评测基准上取得了SOTA性能。

小样本目标检测（FSOD）任务定义

FSOD任务有基类 $C_{base}$ 和新类 $C_{novel}$ 两种类别， $C=C_{base}\cup C_{novel}$ 并且 $C_{base}\cap C_{novel}=\emptyset$ ，基类有足够多的样本而新类只有少量样本。对于 $K$ -shot小样本任务，数据集中的每个新类只有 $K$ 个检测框标注，通常 $K = 1, 3,$

最低0.47元/天解锁文章