论文阅读：DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM

原创已于 2024-09-13 20:52:25 修改 · 1.1k 阅读

·

17

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#论文阅读 #目标跟踪 #人工智能 #计算机视觉 #目标检测

于 2024-09-03 21:07:53 首次发布

LLM 同时被 3 个专栏收录

7 篇文章

订阅专栏

4 篇文章

订阅专栏

4 篇文章

订阅专栏

目录

一、整体说明

二、具体解读

2、问题介绍

3、模型架构

（2）模型处理

4、数据生成方法

5、生成结果

一、整体说明

这是一篇CVPR2024 oral的一篇文章，主要实现了一种生成数据标注的方法。

二、具体解读

1、作者

2、问题介绍

Visual Language Tracking (VLT)和single object tracking (SOT)任务是现在比较重要的任务，相关的数据集都是视频、BBox、文本描述这3者。（同样的，也可以理解为视频理解任务。）

主流的数据集OTB99_Lang, LaSOT, MGIT都存在一些问题，主要是：

数据集太小了，同时数据偏向某些任务。
数据标注在一些情况下不标准，会误导模型。
目标物体会在视频中移动，文本描述很难精确。

在该文的观点，现有的标注的数据同样还存在的问题是，数据标注风格不统一，数据标注的粒度不一致。短文本标注过于简单，只说明类别和位置；长文本模型处理起来困难。要构建高质量的视频标注的数据集，确实很昂贵。这里提供了一种低价的解决方案，即主体通过LLM来标注和生成文本数据。

3、模型架构

（1）输入

我们给定一个视频帧和相关的BBox，将这些作为SAM的输入。

（2）模型处理

SAM会输出目标的mask，接着，我们将视频帧、mask、一段固定的文本prompt输入到Osprey这个框架中进行编码。其实这里就是将所有的输入都embedding化，然后输入到LLM中，模型就会因为文本的prompt给出一长一短的关于目标的描述。

（3）输出

这里的输出是一对描述。精简的会说明目标的类型和位置，具体的会说明目标的特性和相对位置。

4、数据生成方法

视频会安装每100帧的间隔进行抽样，原因是该文认为人的记忆是4秒，按1秒25帧算100帧大约是4秒。输入第一帧会生成初始的描述，而随后的帧则是持续给出，LLM会以相同的方式持续生成成对的视频标注。

5、生成结果

相比较官方的数据标注，生成的数据标注的数量还是单词数量，都成倍大于官方的数据。

6、实验

这里使用的方法是，使用mmtrack来检验效果，mmtrack会根据给出的文本描述来追踪目标物体。

2种情况。直接使用新标注的数据集和在新数据集上进行一定程度微调。表现的结果都是有一定程度提升，或者不会差太多。

三、总结

这篇文章的主要工作是生成数据集，花的时间是在给视频帧标BBox。文中对于最终的效果和具体连续生成标注的说明或许不重要。重要的是，通过对于初始帧进行标注，然后通过目标追踪的方法持续得到目标的位置，这样就可以对于视频与相关的文本进行对应。这种方法很值得借鉴，结合LLM，或许可以使用在很多视频相关的任务中。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。