从 CLIP、VLM/MLLM 到 GPT-4o,模型已经能描述图片、回答视觉问题、定位目标,甚至做简单推理。
但如果把输入换成视频,问题马上变复杂。因为视频是一个持续变化的世界:物体会移动、遮挡、重现,相机会转动,事件有前因后果。
因此,模型不仅要知道画面里有什么,还要知道这些东西如何随时间变化。
来自哥本哈根大学、南开大学、洛桑联邦理工学院(EPFL)、美国圣路易斯华盛顿大学、德国维尔茨堡大学等10家国际顶尖学术机构的研究者们联合发布的综述论文 《Video Understanding: From Geometry and Semantics to Unified Models》 正是在梳理这条路线。论文把视频理解分成三层:

-
低层几何理解:世界怎么动?
-
高层语义理解:视频里发生了什么?
-
统一视频模型:能否同时理解、问答、生成和预测?
1. 先理解运动:几何是视频的地基

论文图 2 对比了三类低层任务:视频深度估计、相机位姿估计、光流/点跟踪,代表工作有 DepthFormer、PoseNet 和 Track-On。
-
深度估计要求跨帧稳定,否则画面会“闪”。
-
相机位姿支撑定位、SLAM 和 3D 重建。
-
光流适合短程运动,Tracking Any Point 则追踪任意点的长程轨迹。

更重要的趋势是:这些任务正在从“各做各的”,走向联合前馈几何模型,如 DUSt3R 和 VGGT。论文图 3 展示了这种变化:模型不再分别估深度、位姿、对应关系,而是在一次前向传播中联合输出多个几何量。
这意味着视频模型正在形成一种 3D / 4D 世界表征,而不只是逐帧识别图片。
2. 再理解事件:语义让视频变成故事
有了几何,模型知道世界如何运动;但还要知道谁在动、做了什么、事件何时发生。
谁在动?

论文图 4 梳理了视频分割的三种形态,代表工作有 SAM2 和 SAM3:
-
固定类别分割:识别预设类别,如人、车、道路。
-
开放词汇分割:根据文本类别分割未见过的对象。
-
类无关分割:用户给点、框、mask 或文本提示,模型持续追踪目标。
做了什么?

论文图 5 则展示了目标跟踪的演化:从 Siamese 模板匹配,到序列级建模,再到多模态 RGB-X 跟踪。SiamRPN、SeqTrack 和 FlexTrack 分别体现了这几条路线。
真实场景里,RGB、深度、热红外、事件相机都可能缺失或失真,所以理想跟踪器必须能在不同模态间稳健退化。
何时发生?

再往上,是视频时间定位。论文图 6 举的例子是:给一句自然语言,模型要找出对应动作在视频中的起止时间。这要求模型不只是“看见动作”,还要把语言、视觉和时间边界对齐。VTimeLLM 和 TimeChat 是较典型的代表
3. 最后走向统一:一个模型处理动态世界
论文第 4 节讨论统一视频模型。这里的“统一”,不是多做几个任务,而是把视频问答、定位、生成、编辑和推理放进同一个框架。Video-LLaVA 、LLaVA-OneVision 和 Qwen2-VL 是典型代表。

论文图 8 总结了统一理解与生成的三种路线:
-
组装式系统:LLM 调用外部视频专家模型,灵活,但不端到端。
-
自回归统一模型:把文本、图像、视频都变成 token,用同一个 next-token 目标训练,形式简洁,但视频 token 太长。如Video-LaVIT、Emu3、VILA-U。
-
混合模型:共享框架中引入扩散或 flow matching,提高生成质量和时间一致性,但训练更复杂。
这条路线的本质,是让模型从“回答视频问题”,走向“理解并模拟动态世界”。
4. 为什么终点是世界模型?
论文结论部分指出,视频理解正在靠近世界模型,它应该能:
-
理解当前观察;
-
预测未来状态;
-
在不确定环境中支持规划和决策。
这里还有一个关键词:记忆。
长视频不能靠无限扩展上下文解决。模型必须选择性记住关键状态,丢掉冗余帧,并在后续推理中调用这些记忆。论文中也给出了围绕长视频记忆与流式推理的代表,如 LongVA 、LongVU 和 StreamingCoT。
这意味着,记忆、流式推理和状态更新,会成为视频大模型、具身智能、多模态 Agent 的核心设计。
我们把这篇综述中各类代表工作的论文地址和代码地址整理成了一份清单。想沿着“几何理解-语义理解-统一视频模型”这条路线继续深挖的朋友,可以评论获取。


3万+

被折叠的 条评论
为什么被折叠?



