多模态大模型下一站：从看图，到看懂视频，再到世界模型

原创已于 2026-06-26 17:38:08 修改 · 343 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能 #计算机视觉 #深度学习

于 2026-06-26 17:35:39 首次发布

论文精读专栏收录该内容

53 篇文章

订阅专栏

从 CLIP、VLM/MLLM 到 GPT-4o，模型已经能描述图片、回答视觉问题、定位目标，甚至做简单推理。

但如果把输入换成视频，问题马上变复杂。因为视频是一个持续变化的世界：物体会移动、遮挡、重现，相机会转动，事件有前因后果。

因此，模型不仅要知道画面里有什么，还要知道这些东西如何随时间变化。

来自哥本哈根大学、南开大学、洛桑联邦理工学院（EPFL）、美国圣路易斯华盛顿大学、德国维尔茨堡大学等10家国际顶尖学术机构的研究者们联合发布的综述论文 《Video Understanding: From Geometry and Semantics to Unified Models》 正是在梳理这条路线。论文把视频理解分成三层：

低层几何理解：世界怎么动？
高层语义理解：视频里发生了什么？
统一视频模型：能否同时理解、问答、生成和预测？

1. 先理解运动：几何是视频的地基

论文图 2 对比了三类低层任务：视频深度估计、相机位姿估计、光流/点跟踪，代表工作有 DepthFormer、PoseNet 和 Track-On。

深度估计要求跨帧稳定，否则画面会“闪”。
相机位姿支撑定位、SLAM 和 3D 重建。
光流适合短程运动，Tracking Any Point 则追踪任意点的长程轨迹。

更重要的趋势是：这些任务正在从“各做各的”，走向联合前馈几何模型，如 DUSt3R 和 VGGT。论文图 3 展示了这种变化：模型不再分别估深度、位姿、对应关系，而是在一次前向传播中联合输出多个几何量。

这意味着视频模型正在形成一种 3D / 4D 世界表征，而不只是逐帧识别图片。

2. 再理解事件：语义让视频变成故事

有了几何，模型知道世界如何运动；但还要知道谁在动、做了什么、事件何时发生。

谁在动？

论文图 4 梳理了视频分割的三种形态，代表工作有 SAM2 和 SAM3：

固定类别分割：识别预设类别，如人、车、道路。
开放词汇分割：根据文本类别分割未见过的对象。
类无关分割：用户给点、框、mask 或文本提示，模型持续追踪目标。

做了什么？

论文图 5 则展示了目标跟踪的演化：从 Siamese 模板匹配，到序列级建模，再到多模态 RGB-X 跟踪。SiamRPN、SeqTrack 和 FlexTrack 分别体现了这几条路线。

真实场景里，RGB、深度、热红外、事件相机都可能缺失或失真，所以理想跟踪器必须能在不同模态间稳健退化。

何时发生？

再往上，是视频时间定位。论文图 6 举的例子是：给一句自然语言，模型要找出对应动作在视频中的起止时间。这要求模型不只是“看见动作”，还要把语言、视觉和时间边界对齐。VTimeLLM 和 TimeChat 是较典型的代表

3. 最后走向统一：一个模型处理动态世界

论文第 4 节讨论统一视频模型。这里的“统一”，不是多做几个任务，而是把视频问答、定位、生成、编辑和推理放进同一个框架。Video-LLaVA 、LLaVA-OneVision 和 Qwen2-VL 是典型代表。

论文图 8 总结了统一理解与生成的三种路线：

组装式系统：LLM 调用外部视频专家模型，灵活，但不端到端。
自回归统一模型：把文本、图像、视频都变成 token，用同一个 next-token 目标训练，形式简洁，但视频 token 太长。如Video-LaVIT、Emu3、VILA-U。
混合模型：共享框架中引入扩散或 flow matching，提高生成质量和时间一致性，但训练更复杂。

这条路线的本质，是让模型从“回答视频问题”，走向“理解并模拟动态世界”。