paper : link
github: link
两点:
(1)增大图像分辨率
(2)丰富图像caption
看起来都是很简单的方法,但是真正做的时候就会遇到各种问题
增大图像分辨率
- 将小图插值,还是直接训练时就用大分辨率的图像?
注:常规用的224x224算小图,对于LLM来说细节信息还是不够
答=>训练时用大分辨率的图像
这时候就会产生两个问题:
(1)测试的时候只有分辨率低的图像怎么办?
(2)大分辨率图像如何编码?ps: 预训练的CLIP往往只能编码小分辨率的图像,因为训练的时候就是这样 - 先看第二个问题,有了大分辨率的图像之后如何编码?
答:分块->编码->采样
如下图所示:

最右侧是原图,896x1344,假设将其切成6块448x448的小图,分别送进clip-vit,同时将原图缩放为448x448,得到局部特征。同样用clip-vit编码后得到全局特征。
对比一下,假如不分块,则首先将原图缩放为448x448,然后送入clip,虽然仍然会得到[cls] token对应的全局特征与每个patch的局部特征,但局部特征是缩放后的patch得到的,而上述方法直接对pixel维度分块,然后分别编码,得到的局部特征的信息量可能就会更多

文章探讨了如何增大图像分辨率以获取更多细节,包括使用大分辨率训练和分块编码技术。同时,介绍了两种丰富图像caption的方法:常规的BLIP2扩展和区域分段结合大语言模型生成详细描述。训练时考虑了如何融合detailedcaption以提高模型性能。

360

被折叠的 条评论
为什么被折叠?



