Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models

文章探讨了如何增大图像分辨率以获取更多细节,包括使用大分辨率训练和分块编码技术。同时,介绍了两种丰富图像caption的方法:常规的BLIP2扩展和区域分段结合大语言模型生成详细描述。训练时考虑了如何融合detailedcaption以提高模型性能。

paper : link
github: link
两点:
(1)增大图像分辨率
(2)丰富图像caption
看起来都是很简单的方法,但是真正做的时候就会遇到各种问题

增大图像分辨率

  1. 将小图插值,还是直接训练时就用大分辨率的图像?
    注:常规用的224x224算小图,对于LLM来说细节信息还是不够
    答=>训练时用大分辨率的图像
    这时候就会产生两个问题:
    (1)测试的时候只有分辨率低的图像怎么办?
    (2)大分辨率图像如何编码?ps: 预训练的CLIP往往只能编码小分辨率的图像,因为训练的时候就是这样
  2. 先看第二个问题,有了大分辨率的图像之后如何编码?
    答:分块->编码->采样
    如下图所示:
    在这里插入图片描述
    最右侧是原图,896x1344,假设将其切成6块448x448的小图,分别送进clip-vit,同时将原图缩放为448x448,得到局部特征。同样用clip-vit编码后得到全局特征
    对比一下,假如不分块,则首先将原图缩放为448x448,然后送入clip,虽然仍然会得到[cls] token对应的全局特征与每个patch的局部特征,但局部特征是缩放后的patch得到的,而上述方法直接对pixel维度分块,然后分别编码,得到的局部特征的信息量可能就会更多
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值