【论文通读】Qwen2-VL: Enhancing Vision-Language Model‘s Perception of the World at Any Resolution

原创

于 2024-10-29 15:58:23 发布 · 1.4k 阅读

·

11

·

标签

#语言模型 #人工智能 #自然语言处理 #通义千问 #LVLM

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

前言
Abstract
Motivation
Solution
Qwen2VL
Experiments
Conclusion

前言

当前多模态大模型的天花板，Qwen2-VL无论是通用的多模态能力还是多语言、Agent的能力，在开源模型中都是一骑绝尘的，甚至可以和商业模型如GPT-4o掰掰手腕。Qwen2-VL是经过沉淀的工作，它不只是扩数据那么简单，在很多实现细节上都进行了改进，是非常值得学习的工作。

Paper	https://arxiv.org/pdf/2409.12191
Code	https://github.com/QwenLM/Qwen2-VL

Abstract

Qwen2-VL重新定义了视觉处理中传统的预定分辨率的方法。它提出了新颖的动态分辨率机制，集成了M-RoPE（多模态旋转位置编码），并采用了统一的范式来处理图像和视频，增强模型的视觉感知能力。Qwen2-VL取得了具有竞争力的效果，甚至与GPT-4o相当。

Motivation

当前主流多模态框架是visual encoder->cross-model connector->LLM。其他一些方法，如更大的模型架构，更高分辨率图像，MoE架构，模型集成，视觉文本更复杂的连接，也为提升LVLM处理复杂能力方面发挥了关键作用。

但是当前的LVLMs通常是固定输入的图像大小。虽然这增强了输入的一致性，但是也限制了模型捕获不同尺寸信息的能力，尤其导致高分辨率图像信息丢失。此外，大部分LVLMs依赖静态冻结的CLIP-style

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

HERODING77 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。