【CVPR2024】Few-Shot Object Detection with Foundation Models

【CVPR2024】Few-Shot Object Detection with Foundation Models

机构:哥伦比亚大学、中佛罗里达大学

论文地址:https://openaccess.thecvf.com/content/CVPR2024/html/Han_Few-Shot_Object_Detection_with_Foundation_Models_CVPR_2024_paper.html

作者简介:Ser-Nam Lim,马里兰大学帕克分校博士学位,2018年-2023年在Meta(前身Facebook)参与计算机视觉、NLP和其他AI领域的研究,研究内容主要是确保航空和电力行业的安全、检测Meta平台上的错误信息,最近专注于AI用于对用户内容的推荐,包括大语言模型(LLM)和计算机视觉交叉点的搜索引擎,2023年秋季加入中佛罗里达大学。代表工作为Visual prompt tuning。

本文主要目的是提高小样本目标检测的精度,用DINOv2预训练的模型作为视觉backbone,使用大语言模型(LLM)来对类别、查询图像这两种输入信息进行上下文小样本学习。使用精心设计的语言指令提示LLM来为每个候选区(proposal)进行分类,所使用的上下文信息包括proposal-proposal关系、proposal-class关系、class-class关系。所提出的FM-FSOD方法在多个FSOD基准数据集上取得了SOTA性能。

文章贡献/创新点

  • 文章研究基于基础模型的小样本目标检测,重点关注视觉特征提取上下文proposal分类
  • 文章使用了基于DINOv2的全Transformer检测框架实现对大量样本和小样本类别的高泛化性。
  • 使用大语言模型简化query和support之间的建模,自动学习丰富的上下文信息。
  • 在PASCAL VOC和MSCOCO小样本评测基准上取得了SOTA性能。

小样本目标检测(FSOD)任务定义

FSOD任务有基类 C b a s e C_{base} Cbase和新类 C n o v e l C_{novel} Cnovel两种类别, C = C b a s e ∪ C n o v e l C=C_{base}\cup C_{novel} C=CbaseCnovel并且 C b a s e ∩ C n o v e l = ∅ C_{base}\cap C_{novel}=\emptyset CbaseCnovel=,基类有足够多的样本而新类只有少量样本。对于 K K K-shot小样本任务,数据集中的每个新类只有 K K K个检测框标注,通常 K = 1 , 3 , 5 , 10 , 30 K=1,3,5,10,30 K=1,3,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值