Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models

最新推荐文章于 2025-03-28 23:13:23 发布

原创

最新推荐文章于 2025-03-28 23:13:23 发布 · 1.3k 阅读

·

30

·

标签

#目标跟踪 #人工智能 #计算机视觉

文章探讨了如何增大图像分辨率以获取更多细节，包括使用大分辨率训练和分块编码技术。同时，介绍了两种丰富图像caption的方法：常规的BLIP2扩展和区域分段结合大语言模型生成详细描述。训练时考虑了如何融合detailedcaption以提高模型性能。

paper : link
github: link
两点：
（1）增大图像分辨率
（2）丰富图像caption
看起来都是很简单的方法，但是真正做的时候就会遇到各种问题

增大图像分辨率

将小图插值，还是直接训练时就用大分辨率的图像？
注：常规用的224x224算小图，对于LLM来说细节信息还是不够
答=>训练时用大分辨率的图像
这时候就会产生两个问题：
（1）测试的时候只有分辨率低的图像怎么办？
（2）大分辨率图像如何编码？ps: 预训练的CLIP往往只能编码小分辨率的图像，因为训练的时候就是这样
先看第二个问题，有了大分辨率的图像之后如何编码？
答：分块->编码->采样
如下图所示：

最右侧是原图，896x1344，假设将其切成6块448x448的小图，分别送进clip-vit，同时将原图缩放为448x448，得到局部特征。同样用clip-vit编码后得到全局特征。
对比一下，假如不分块，则首先将原图缩放为448x448，然后送入clip，虽然仍然会得到[cls] token对应的全局特征与每个patch的局部特征，但局部特征是缩放后的patch得到的，而上述方法直接对pixel维度分块，然后分别编码，得到的局部特征的信息量可能就会更多

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。