BLIP-2:Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Model

最新推荐文章于 2026-03-27 16:42:44 发布

原创

最新推荐文章于 2026-03-27 16:42:44 发布 · 2.2k 阅读

标签

#语言模型 #人工智能 #自然语言处理

本文提出BLIP-2，一种通用有效的预训练策略，用轻量级查询转换器（Q-Former）弥合通道差距，分两阶段预训练。它能利用冻结的预训练图像编码器和语言模型，在多种视觉语言任务上达先进水平，计算效率高，可训练参数少，还具备新兴功能。

BLIP-2:Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

BLIP-2:用冻结图像编码器和大型语言模型引导语言图像预训练

1.摘要

由于大规模模型的端到端训练，视觉和语言预训练的成本变得越来越令人望而却步。本文提出了BLIP-2，一种通用和有效的预训练策略，它从现成的冻结预训练图像编码器和冻结大型语言模型启动视觉语言预训练。BLIP-2用一个轻量级的查询转换器弥合了通道之间的差距，该转换器分两个阶段进行预训练。第一阶段引导从冻结的图像编码器学习视觉语言表示。第二阶段从冻结的语言模型启动视觉到语言的生成学习。BLIP-2在各种视觉语言任务上实现了最先进的性能，尽管与现有方法相比，它的可训练参数少得多。例如，我们的模型在零触发VQAv2上的性能比Flamingo80B高8.7%，可训练参数少54倍。我们还展示了该模型的新兴功能，即可以遵循自然语言指令的零拍摄图像到文本的生成。

总结：

BLIP-2:一种通用和有效的预训练策略，

从现成的冻结预训练图像编码器和冻结大型语言模型启动视觉语言预训练

关键：一个轻量级的查询转换器弥合了通道之间的差距，该转换器分两个阶段进行预训练

训练两个阶段：

第一阶段引导从冻结的图像编码器学习视觉语言表示。

第二阶段从冻结的语言模型启动视觉到语言的生成学习。

效果：

在各种视觉语言任务上实现了最先进的性能，尽管与现有方法相比，它的可训练参数少得多。模型在zero-shot VQAv2上的性能比Flamingo80B高8.7%，可训练参数少54倍。

展示了该模型的新兴功能，即可以遵循自然语言指令的zero-shot 图像到文本的生成。

2.背景相关功能工作

因为：

视觉语言预训练VLP不断发展，不断推动各种下游任务的最新发展水平

由于使用大规模模型和数据集的端到端训练，大多数最新的视觉语言模型在预训练期间都存在高计算成本。

所以：

通过从现成的预先训练的视觉模型和语言模型中引导，计算高效的VLP方法。

        预先训练的视觉模型提供高质量的视觉表现。

        预先训练的语言模型，尤其是大型语言模型，提供了强大的语言生成和zero-shot能力。

为了减少计算成本和抵消灾难性遗忘的问题，单峰预训练模型在预训练期间保持冻结

又因为：

        为了利用预先训练好的VLP单模态模型，促进跨模态协调是关键

        然而，由于LLM在他们的单峰预训练中没有看到图像，冻结它们使得视觉语言对齐特别具有挑战性。

解决方案：

                图像到文本的生成损失，我们表明这不足以弥补模态差距

所以：

      提出了一种用新的两阶段预训练策略预训练的查询转换器(Q Former)

-------------------------------------------------------------------------------------------------------------------------

Q-Former是什么?

一个轻量级的反变换器，

使用一组可学习的查询向量从冻结图像编码器中提取视觉特征。

充当冻结图像编码器和冻结LLM之间的信息瓶颈，为LLM提供最有用的视觉特征以输出所需的文本。

在训练中如何使用？

第一个预训练阶段，执行视觉-语言表征学习，它强制Q-Former学习与文本最相关的视觉表征。

第二个预训练阶段，通过将Q-Former的输出连接到冻结的LLM来执行视觉到语言的一般学习，并且训练Q-Former，使得它的输出视觉表示可以被LLM解释。

图一BLIP-2框架概述。我们按照两阶段策略预先训练了一个轻量级查询转换器，以弥合通道间隙。第一阶段从冻结的图像编码器引导视觉语言表示学习。第二阶段从冻结的LLM启动视觉到语言的生成学习，这实现了zero-shot指示的图像到文本的生成(更多示例请参见图4)。

-------------------------------------------------------------------------------------------------------------------------

创新点：

BLIP-2：VLP框架命名为BLIP-2:用冻结的单峰模型引导语言图像预训练。

主要优势包括:

BLIP-2有效地利用了冻结的预训练图像模型和语言模型。

使用一个Q-Former在两个阶段预训练来弥合通道间隙:表示学习阶段和生成学习阶段。

在各种视觉语言任务上实现了最先进的性能，包括视觉问答、图像字幕和图像文本检索

由LLMs(例如OPT (Zhang等人，2022年)、FlanT5 (Chung等人，2022年))提供动力的BLIP-2可以被提示执行遵循自然语言指令的zero-shot图像到文本的生成，这实现了诸如视觉知识推理、视觉对话等新兴能力。

由于使用了冻结的单峰模型和轻量级Q-Former，BLIP-2的计算效率比现有的最先进技术更高。BLIP-2在Zero-shot VQAv2上的性能比Flamingo (Alayrac等人，2022)高出8.7%，而使用的可训练参数却少了54倍。

结果表明，BLIP-2是一种通用方法，可以获得更先进的单峰模型，以获得更好的VLP性能。