1. 为什么视觉语言模型需要"像素级"感知?
视觉语言模型(VLM)在过去几年取得了巨大进展,能够理解图像内容并生成流畅的描述。但如果你仔细观察,会发现一个明显的短板:这些模型虽然能告诉你"图片左上角有个穿红衣服的女孩",却无法精确指出这个女孩的具体位置。就像是一个近视的人能描述场景的大致轮廓,却看不清细节。
这个问题在技术层面被称为"细粒度感知缺失"。传统VLM在COCO目标检测任务上的mAP(平均精度)通常不到40%,而专业检测模型轻松突破60%。这种差距不是数据或算力的问题,而是架构设计上的根本限制。
核心矛盾在于:让一个为语言生成设计的模型去输出精确的坐标值,就像让诗人做微积分一样不自然。语言模型擅长生成离散的token,但连续坐标要求精确到像素级的数值输出,一个token出错整个定位就失败了。
2. VLM-FO1的突破:从"生成坐标"到"引用特征"
2.1 范式转变:让模型学会"指"而不是"算"
VLM-FO1最聪明的设计是彻底改变了定位任务的范式。它不再强迫模型生成(x,y,w,h)这样的坐标数字,而是让模型学会在视觉特征空间中"引用"特定区域。就像我们指认物体时不会说"坐标(123,456)到(234,567)的区域",而是直接说"那个穿红衣服的人"。
具体实现上,模型会为每个候选区域生成一个独特的token(如)。当需要定位时,模型只需在语言输出中插入这个token,就像在文档中插入超链接一样简单。这种方式有三大优势:
- 容错性高:不再担心数字序列生成错误
- 多任务友好:同一个区域token可以在不同任务中复用
- 保持语言流畅:完全兼容原有的文本生成流程
2.2 双编码器设计:既懂语义又看清细节
为了实现精准的引用,VLM-FO1采用了创新的混合细粒度区域编码器(HFRE),包含两个并行的视觉编码器:


312

被折叠的 条评论
为什么被折叠?



