论文阅读:DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM

目录

一、整体说明

二、具体解读

1、作者

2、问题介绍

3、模型架构

(1)输入

(2)模型处理

(3)输出

4、数据生成方法

5、生成结果

6、实验

三、总结


一、整体说明

这是一篇CVPR2024 oral的一篇文章,主要实现了一种生成数据标注的方法。

二、具体解读

1、作者

2、问题介绍

Visual Language Tracking (VLT)和single object tracking (SOT)任务是现在比较重要的任务,相关的数据集都是视频、BBox、文本描述这3者。(同样的,也可以理解为视频理解任务。)

主流的数据集OTB99_Lang, LaSOT, MGIT都存在一些问题,主要是:

  • 数据集太小了,同时数据偏向某些任务。
  • 数据标注在一些情况下不标准,会误导模型。
  • 目标物体会在视频中移动,文本描述很难精确。

在该文的观点,现有的标注的数据同样还存在的问题是,数据标注风格不统一,数据标注的粒度不一致。短文本标注过于简单,只说明类别和位置;长文本模型处理起来困难。要构建高质量的视频标注的数据集,确实很昂贵。这里提供了一种低价的解决方案,即主体通过LLM来标注和生成文本数据。

3、模型架构

(1)输入

我们给定一个视频帧和相关的BBox,将这些作为SAM的输入。

(2)模型处理

SAM会输出目标的mask,接着,我们将视频帧、mask、一段固定的文本prompt输入到Osprey这个框架中进行编码。其实这里就是将所有的输入都embedding化,然后输入到LLM中,模型就会因为文本的prompt给出一长一短的关于目标的描述。

(3)输出

这里的输出是一对描述。精简的会说明目标的类型和位置,具体的会说明目标的特性和相对位置。

4、数据生成方法

视频会安装每100帧的间隔进行抽样,原因是该文认为人的记忆是4秒,按1秒25帧算100帧大约是4秒。输入第一帧会生成初始的描述,而随后的帧则是持续给出,LLM会以相同的方式持续生成成对的视频标注。

5、生成结果

相比较官方的数据标注,生成的数据标注的数量还是单词数量,都成倍大于官方的数据。

6、实验

这里使用的方法是,使用mmtrack来检验效果,mmtrack会根据给出的文本描述来追踪目标物体。

2种情况。直接使用新标注的数据集和在新数据集上进行一定程度微调。表现的结果都是有一定程度提升,或者不会差太多。

三、总结

这篇文章的主要工作是生成数据集,花的时间是在给视频帧标BBox。文中对于最终的效果和具体连续生成标注的说明或许不重要。重要的是,通过对于初始帧进行标注,然后通过目标追踪的方法持续得到目标的位置,这样就可以对于视频与相关的文本进行对应。这种方法很值得借鉴,结合LLM,或许可以使用在很多视频相关的任务中。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值