多模态融合[26]Text-IF: Leveraging Semantic Text Guidance for Degradation-Aware and Interactive Image Fusi

最新推荐文章于 2026-06-21 22:01:11 发布

原创最新推荐文章于 2026-06-21 22:01:11 发布 · 924 阅读

13 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能 #计算机视觉 #图像处理 #自动驾驶 #神经网络

🔍 VisionCore Pro | 多模态智能语义分析平台

AI应用

PyTorch

CLIP

VisionCore Pro 是一款基于 OpenAI CLIP (Contrastive Language-Image Pre-training) 架构的企业级多模态视觉分析工具。通过先进的深度学习技术，该平台实现了图像与文本之间的深度语义对齐，支持零样本（Zero-shot）图像识别与分类，为企业视觉资产数字化、智能监控及内容审核提供高效的技术支撑。

武大马老师大组24年CVPR的工作，加入了文本语义，非常值得一读，相关的工作后续也有很多。

一.摘要

图像融合旨在结合来自不同源图像的信息，以创建一幅具有全面代表性的图像。现有的融合方法通常在处理低质量源图像中的退化问题时无能为力，并且对多种主客观需求缺乏交互性。

为解决这些问题，我们引入了一种新颖方法，该方法利用语义文本引导的图像融合模型来完成退化感知和交互式的图像融合任务，称为 Text-IF。它创新性地将经典的图像融合扩展到了文本引导的图像融合，同时具备了在融合过程中协同解决退化和交互问题的能力。

通过文本语义编码器和语义交互融合解码器，Text-IF 得以实现对红外与可见光图像的一体化退化感知处理，并获得交互式、灵活的融合结果。通过这种方式，Text-IF 不仅实现了多模态图像融合，更实现了多模态信息融合。

大量实验证明，我们提出的文本引导图像融合策略，在图像融合性能和退化处理方面，相比当前最先进的方法具有明显优势。

=========================================================================

二.Intro

图像融合是数字图像处理领域中的一个重要分支[15, 27, 35]。单模态图像仅能捕获场景的部分信息。多模态图像则可以实现对场景更全面信息的有效获取。作为一种重要代表，可见光图像提供基于反射的视觉信息，类似于人眼视觉。红外图像提供基于热辐射的信息，对于检测热目标与观察夜间活动更具价值。红外与可见光图像融合致力于融合红外与可见光图像的互补信息，以生成高质量的融合图像[18–20, 28, 38, 39, 43]。

受环境条件限制，最初获取的红外与可见光图像可能存在退化，并导致融合图像质量低下。可见光图像易受低光照、过曝光等退化问题影响。红外图像则不可避免地受到噪声（包括热噪声、电子噪声和环境噪声）、对比度降低及其他相关效应的干扰。当前的融合方法缺乏自适应解决这些退化的能力，从而导致低质量的融合结果。此外，依赖人工预处理来增强图像存在灵活性与效率方面的问题[29]。因此，研究一种能够协调退化感知处理与交互式融合的模型具有现实意义。为特定退化设计模型以实现图像增强与融合是可行的。然而，大多数图像融合任务需要在全天候各种复杂条件下进行。如图1所示，

图1. 针对存在退化的复杂场景的融合方法。 (a) 简单融合方法：使用预定义的融合损失进行图像融合，不适用于存在退化的复杂场景。(b) 分离式方法：需要根据退化类型频繁切换复原方法，这很麻烦且效果不佳。(c) 提出的文本引导图像融合方法：无需繁琐的模型替换，即可实现交互式、高质量的图像融合。

这意味着需要匹配多种图像复原模型的需求，这需要频繁切换模型，并带来巨大的消耗与麻烦。此外，这种分离式方法在实现增强与融合之间的协调方面存在问题，导致整体性能不尽人意。

另外，真实世界的图像融合是复杂、灵活且面向任务的。图像融合的要求可能根据用户的主观需求和客观应用任务而变化。在所有场景中，如果方法不具备交互性且产生相对固定的融合结果，通常难以满足用户多样且灵活的需求。作为人机交互的一种重要方式，文本被广泛用于指定需求的模型中。近期的大规模视觉语言研究在图像生成领域取得了惊人成果[13, 16, 26, 30]，证明了该范式的潜力。语义文本与图像处理过程之间的交互可以实现定制化图像处理的目标。此外，PromptIR [24] 提出了可学习的视觉提示并实现了多种退化移除，但未实现文本引导，且缺乏针对多模态退化与融合的设计。因此，通过文本来实现图像融合中的退化感知处理与用户交互性具有重要意义。

为此，我们提出了一种利用语义文本引导进行退化感知与交互式图像融合的模型，命名为 Text-IF。它将文本与图像融合相集成，以满足协调的退化感知处理与交互式融合的需求。特别是，它允许文本提供灵活的语义指导来处理各种退化，这本身也是一种多模态信息融合。

总体而言，Text-IF 包含图像处理pipeline，以及文本交互引导架构，后者包括文本语义编码器和语义交互引导模块。在图像融合pipeline中，我们精心设计了基于Transformer的图像提取模块和交叉融合层，以实现高质量融合。在文本语义编码器中，我们聚合了强大预训练视觉-语言模型的文本语义提取能力。通过语义交互引导模块，将文本的语义特征与图像融合特征耦合在一起，以实现文本引导图像融合的目标。它解决了现有图像融合方法难以适应具有退化的复杂场景融合，且只能输出无交互性的相对固定结果的问题。它为后续文本引导图像融合任务的研究提供了可行方向。

总的来说，我们的贡献可总结如下：

为适应复杂的退化条件，我们解决了图像融合与退化感知处理的集成问题。它突破了图像融合中质量提升的局限。
我们引入了语义交互引导模块来融合文本与图像的信息。所提方法不仅实现了多模态图像融合，更实现了多模态信息融合。
所提方法最终增加了定制化融合结果的自由度。它提供了交互式融合，无需先验专业知识或预定义规则，即可生成更灵活、高质量且符合用户需求的结果。

1.通用图像融合方法

随着深度学习的出现，通用图像融合方法已取得显著进展。在早期阶段，基于预训练自编码器的融合策略被广泛采用。CSR [17] 采用卷积稀疏表示进行图像融合，提取多层特征，并利用这些特征生成融合图像。为消除繁琐的人工设计需求，一种基于CNN的端到端融合结构被提出，使得融合过程更加灵活和直接。U2Fusion [34] 采用密集连接网络，根据源图像生成融合图像。它使用权重块来获取两个数据驱动的权重，这些权重用作不同源图像中特征的保留度量，以衡量图像的质量和信息。此外，它结合持续学习等技术来实现多任务融合，是首个一体化图像融合方法。另外，近年来，结合高层视觉任务的图像融合也取得了很大进展 [14]。最近，基于扩散模型的图像融合方法开始进入人们的视野。DDFM [42] 利用贝叶斯理论、分数匹配和预训练扩散模型来获得出色的结果。

2.文本-图像模型

随着Transformer和表示学习的进步，以及大型数据集的支持，多模态文本引导图像模型已取得成功。CLIP [25] 基于两个神经网络编码器构建，使用对比损失来对齐图像和文本对。得益于海量数据和无监督训练，它拥有强大的零样本识别能力以及鲁棒的文本、图像特征提取能力。在CLIP模型的支持下，众多文本驱动的图像生成与处理方法被提出。Style-CLIP [23] 为StyleGAN [9] 设计了一个文本引导接口，允许使用文本提示来改变真实图像。除了GAN模型，带有文本条件的扩散模型也引起了大量关注。DiffusionCLIP [11] 提出了结合CLIP的扩散模型用于文本驱动的图像处理。此外，稳定扩散模型 [26] 将扩散模型与文本控制图像生成相结合。通过文本引导，它可以定制图像生成、图像处理等任务的效果，实现交互式的多模态融合控制。

现有的图像融合方法在面对存在退化的复杂场景时无能为力。即使配备了最先进的图像复原模型，也过程繁琐且效果不佳。此外，对于没有专业知识的用户，难以实现交互式的高质量图像融合。因此，有必要创新性地引入文本引导的图像融合框架以简化使用。

四.Methods

本章节阐述了Text-IF的工作流程，如图2所示。我们将从图像融合pipeline和文本交互引导架构两个视角进行介绍，后者包括文本语义编码器和语义交互引导模块。

图2 Text-IF的工作流程。它包含两个重要部分，即图像融合pipeline和文本语义特征编码器。文本语义特征通过语义交互引导模块（SIGM） 来指导图像融合。

4.1. 问题定义

        通用图像融合方法将图像融合任务定义为：以两幅源图像（如 $I_{vis}, I_{ir}$ ）作为输入，通过一个融合网络（如 $\theta_{n}$ ）来获得一个固定的图像融合结果。该网络被设计用于学习与融合任务对应的、预定义的融合映射函数 $F_{if}$ 。简而言之，可描述为：
$I_f = F_{if}(I_{vis}, I_{ir}; \theta_{n})$ 。 (1)
        这意味着融合网络倾向于学习一种相对固定的融合策略。此外，在复杂环境中，例如源图像存在退化时，这类任务范式无能为力。我们研究利用文本来打破传统的单一融合结果以及在退化条件下质量提升的难题，并探索新颖的文本引导图像融合范式。由于文本语义的引入，此融合任务被重新定义为：
$I_{f} = F_{s-if} (I_{vis}, I_{ir}, T_{text}; \theta _{n-s})$ 。 (2)
        原始的映射融合函数 $F_{if}$ 被扩展为具有文本语义信息引导的 $F_{s-if}$ 。通过文本语义 $T_{text}$   的交互，图像融合网络 $\theta _{n-s}$ 可以根据用户提供的文本实现更定制化、更灵活的融合效果。同时，它也能在面对各种源图像退化时，自由地进行复原与融合。

4.2. 图像融合Pipeline

图像编码器

        图像编码器分别以源可见光图像和红外图像作为输入。考虑到空间和深度信息的提取，为了获得全面而准确的表示，我们采用基于Transformer/Restormer[37]的块作为基础特征提取器。简而言之，其表述如下：
  ， (3)
        其中  和代表可见光和红外图像。H, W 表示图像的高度和宽度。和  分别是可见光图像编码器和红外图像编码器。

交叉融合层

        交叉融合层旨在整合来自不同模态的特征信息。为了全面整合所有维度上的特征，首先使用交叉注意力（CR-ATT）来交互不同模态的特征。具体而言，可以表述如下：

        其中 ,  表示来自可见光编码器和红外编码器的特征。随后，我们交换两种模态的查询 Q 以进行空间交互：

        其中  是缩放因子。最后，我们通过将交叉注意力计算得到的结果进行拼接，以获得融合特征。

语义交互融合解码器

交叉融合层输出的特征首先通过自注意力（SE-ATT）进行增强,随后，它受到语义文本特征的交互式引导。语义交互融合解码器的设计目的是交互文本语义特征和图像融合特征。具体来说，它由基于Transformer的解码器块和语义交互引导模块（SIGM）构建而成。融合解码器块和SIGM以多级级联的方式紧密耦合在一起，以实现密集调控和引导的效果。简而言之，语义交互融合解码器可描述为：

其中 $F^k_f$ 表示第k个块阶段的图像融合特征。表示多层重复。和 $L^s_f$ 分别表示基于Transformer的块和SIGM。请注意，解码器各层级之间需要进行上采样以对应编码器处的下采样。

4.3. 文本交互引导架构

预设的图像融合pipeline可以有效获得相应的融合特征 $F_f$ 。而文本交互引导架构是将文本语义信息与图像融合耦合的关键部分。

文本语义编码器

        给定一个文本，其提供相应的语义特征来引导图像融合网络获得指定的融合结果（例如，指定任务类型和退化类型），文本交互引导架构的文本语义编码器应将其转换为文本嵌入。作为一个大型预训练视觉语言模型，CLIP在文本特征提取上具有良好的效果。我们倾向于冻结CLIP中优秀的文本编码器以保持良好的语言一致性。用 {·}_e 表示冻结的权重，此过程可表达为：
  ， (7)
        其中 $F_{text}\in R^{N*L}$ 表示文本语义特征。在不同的但语义相似的文本中，提取的特征在降维后的欧几里得空间中应接近。此外，我们设计来挖掘这种联系，并进一步映射文本语义信息和语义参数。因此，可以得到：
  ， (8)
其中 $\Phi^I_m$ 和  是  的分块操作，以形成语义参数。

语义交互引导模块（SIGM）

在语义交互引导模块中，语义参数通过特征调制与融合特征 $F^i_f$ 进行交互，从而获得引导效果。特征调制由尺度缩放和偏置控制组成，分别从两个角度调整特征。特别地，使用了一个残差连接来降低网络拟合的难度。为简化起见，可描述为：
， (9)

4.4. 损失函数

损失函数在很大程度上决定了所提取的源信息类型以及源信息之间的比例关系。从文本引导的角度出发，我们不仅希望通过文本自由解决各种退化问题，还期望文本能够根据用户需求自主选择与融合任务相对应的最优损失。因此，在文本引导的图像融合任务中，损失函数的构建是一种开放集多点映射的关系。融合相关的损失包括强度损失、结构相似性（SSIM）损失[40]、最大梯度损失和色彩一致性损失。考虑到退化，我们采用人工获取的高质量可见光图像和红外图像作为损失中的约束。

强度损失

为了突出红外和可见光图像中的显著目标，最大化结果的强度值以确保目标显著性。其定义为：
$\mathcal{L}_{int} = \frac{1}{HW} \| I_f - \max(I^g_{vis}, I^g_{ir}) \|_1$ (10)

结构相似性损失

        结构相似性损失衡量融合图像与源图像之间的相似度，使融合图像在结构上与源图像相似。其表达为：
   $\mathcal{L}_{SSIM} (t) = \left[1 - SSIM (I_f, I^g_{vis})\right] + \delta_{ir}(t) \left[1 - SSIM (I_f, I^g_{ir})\right]$ (11)
其中  表示红外结构相似性损失的比例，它是文本语义的函数。

最大梯度损失

此损失保留两幅源图像中的最大边缘。从而可以获得更清晰的纹理表示。其可表达为：
$\mathcal{L}_{grad} = \frac{1}{HW} \| \nabla I_f - \max(\nabla I^g_{vis}, \nabla I^g_{ir}) \|_1$ (12)

色彩一致性损失

        它保持融合图像与可见光图像的颜色一致。我们将图像转换到YCbCr空间，并用Cb和Cr通道的欧几里得距离进行约束。其可表达为：
  (13)
        其中  表示RGB到CbCr的转换函数。

总损失

整体损失函数是融合相关损失的组合，并受语义信息调控。简而言之，可表达为：
$\mathcal{L}_{total} = \alpha_{int}(t)\mathcal{L}_{int} + \alpha_{SSIM}(t)\mathcal{L}_{SSIM}(t) + \alpha_{grad}(t)\mathcal{L}_{grad} + \alpha_{color}(t)\mathcal{L}_{color}$ (14)

五. 实验

在本节中，我们首先介绍实现细节和相关配置。然后，通过定性和定量比较来评估所提方法的有效性和优越性。特别是，我们分析了文本引导图像融合的具体结果。最后，进行了消融实验。

5.1. 实现细节与数据集

实现细节。所提出的Text-IF使用文本引导图像融合数据进行训练。学习率为0.0001，使用AdamW优化器，批大小为16。源图像被裁剪为96×96。超参数集 {α_int(t), α_SSIM(t), α_grad(t), α_color(t)} 本质上是一个与语义文本相关的离散复杂映射。详情请参见补充材料。所有实验均在配备NVIDIA GeForce RTX 3090 GPU的平台上使用PyTorch框架进行。

数据集。为验证泛化能力，使用的常用红外与可见光图像融合数据集包括MSRS[29]、MFNet[5]、RoadScene[34]和LLVIP[8]。这些原始数据集在不同情况下存在退化，例如可见光图像中的低光照、过曝光等，以及红外图像中的低对比度、噪声等。我们选择场景不同的图像，通过人工复原获得高质量源图像，并添加相应的数百条描述指令，以确保用户可以自由输入文本进行交互。总共我们使用3618对图像进行训练，1135对进行测试。

评估指标。指标包括差异相关性之和（SCD）[2]、标准差（SD）、信息熵（EN）[18]、视觉信息保真度（VIF）[6]、基于梯度的融合质量（QAB/F）[18]、CLIP-IQA[32]、NIQE[22]、MUSIQ[10]、BRISQUE[21]和空间频率（SF）[4]。SCD、SD、EN、VIF、QAB/F、CLIP-IQA、MUSIQ和SF的值越高，表示融合图像质量越高。此外，NIQE和BRISQUE的值越低表示质量越高。

SOTA竞争对手。我们在多个数据集上将所提出的方法与几种最先进的方法进行比较。用于比较的方法包括UMF-CMGR[31]、TarDAL[14]、ReCoNet[7]、MURF[36]、U2Fusion[34]、MetaFusion[41]和DDFM[42]。

5.2. 无文本引导下的比较

现有的图像融合方法不具备语义引导。为公平比较，我们首先仅比较不提供语义引导时的融合性能。此时，Text-IF使用默认文本，这意味着没有引入额外的语义信息。

定性比较。在三个数据集上的结果如图3所示。

图3. 我们的Text-IF在无文本引导（无额外语义信息）情况下与现有图像融合方法的定性比较。从上至下依次为：来自MSRS的数据、两组来自LLVIP的数据，以及来自RoadScene数据集的数据。

得益于具有高表达能力的基于Transformer的管线以及隐式嵌入的图像复原先验，Text-IF显示出三个显著优势。首先，我们的结果能突出热目标。如前三组结果所示，我们结果中热目标的像素强度是最高的，这表明我们结果中的热目标最为突出。其次，我们的结果展现出更适宜的亮度并提供更多细节。在第二和第三组中，我们结果的大部分区域显示出比竞争对手结果更高的像素强度。在这种情况下，更多的场景内容能够被清晰地呈现。最后，我们的结果能呈现更鲜艳自然的色彩。如最后一个示例所示，在我们的结果中，汽车和树木的颜色更接近可见光图像。通过减少红外图像对可见光图像颜色信息的干扰，我们的融合结果在色彩上更有利于视觉感知。

定量比较。在三个数据集上使用五个指标测试的定量结果报告于表1。

表1. 我们的Text-IF在无文本引导（未引入额外语义信息）情况下与现有图像融合方法在MSRS、LLVIP和RoadScene数据集上的定量比较（粗体：最优性能）。

在MSRS和LLVIP数据集上，我们的方法在所有五个指标上表现最佳，尤其是在SCD和VIF上显示出显著优势。在RoadScene数据集上，我们的方法也在三个指标上表现最优。EN、VIF和QAB/F的结果反映出，即使没有文本引导，我们的方法也能生成信息量最丰富、与源图像之间失真最小、并将最多边缘转移到融合图像中的融合结果。在SCD和SD上的最优或可比结果，反映了我们的结果融合失真小、对比度高（视觉效果佳）。从指标角度看，在多个指标上的优越性表明了所提方法在融合性能方面的全面性。从数据集角度看，所提方法在多个数据集上的优越性反映了其在多种数据分布和多种场景类型下的泛化能力。

5.3. 有文本引导下的比较

在真实场景中，源图像通常可能遭受各种退化，例如光照不良、噪声和低对比度。现有的图像融合方法无法处理这些退化，导致融合结果不理想，而我们的方法可以通过简单的文本引导来处理它们。因此，为公平起见，我们将现有的图像融合方法与图像复原方法结合进行比较。针对不同退化的SOTA图像复原模型包括用于低光图像增强的URetinex[33]、用于对比度增强的AirNet[12]、用于去噪的GDID[3]和用于过曝光校正的LMPEC[1]。同样值得注意的是，我们的方法在所有场景（即针对所有退化）中使用相同的模型参数。

定性比较。Text-IF的定性结果，以及在退化的源图像上结合SOTA图像复原和图像融合竞争对手的结果，如图4所示。

图4. 我们的Text-IF（带有语义文本引导）与现有图像复原及融合方法组合在退化源图像上的比较。每组图像上方报告了所使用的语义文本。从上至下的退化类型依次为：低光照可见光（MSRS）、低光照可见光（LLVIP）、低对比度红外（MFNet）、带噪声红外（DN-MSRS）、过曝光可见光（RoadScene）。

总体而言，与现有方法需要人工先验来为融合添加复原预处理不同，Text-IF只需提供对场景的简单请求/描述，即可处理退化的源图像。这避免了在应对退化过程中寻找和切换不同复原方法的繁琐任务。接下来，我们详细比较各种退化场景下的融合结果。首先，在前两个示例中，可见光图像存在低光照问题。竞争对手可以在一定程度上使用URetinex来增亮可见光图像。然而，融合后，红外图像的低像素强度仍然降低了它们结果的亮度，同时也降低了色彩饱和度。相比之下，我们的方法产生了更合适的亮度和更鲜艳的色彩。在第三和最后一个示例中，红外图像对比度低或可见光图像过曝光。在这些条件下，我们的方法可以扩展融合结果的动态范围，获得更高对比度的融合结果，同时确保其颜色信息的正确性。因此，结果能展现更清晰的细节。在第四个示例中，红外图像存在明显噪声。GDID未能去除所有噪声，导致融合结果中残留噪声。相比之下，我们的结果显示出更少的噪声污染，呈现更高的图像质量。此外，我们结果中热目标的突出性也具有优势。

定量比较。在不同类型退化数据集上的结果报告于表2。Text-IF在MSRS、LLVIP、MFNet、DN-MSRS和RoadScene数据集的所有指标上仍然实现了总体最优性能。SD、EN和SF的结果表明，我们的方法能有效地传递融合图像中的信息。CLIP-IQA、NIQE、MUSIQ和BRISQUE的结果表明，面对退化，我们的方法能够产生高质量的融合结果。

5.4. 在高层任务上的性能

为验证融合结果在下游高层视觉任务中的性能，我们在LLVIP数据集的融合结果上进行了目标检测实验。我们采用YOLOv8作为目标检测骨干网络，并在LLVIP的红外可见光源图像上对其进行了微调。定性和定量实验结果如图5和表3所示。

图5. 在LLVIP数据集上（未引入额外语义信息）目标检测性能的定性比较。

表3. 在LLVIP数据集上目标检测的定量比较。Text-IF使用了默认文本（未引入额外语义信息）。（粗体：最优性能）

与SOTA竞争对手比较。在定性比较方面，我们提出的Text-IF方法检测到了场景中的所有物体，而其他方法存在漏检。在定量比较方面，Text-IF获得了最佳的检测性能。

5.5. 消融实验

为验证所提方法的有效性，我们在LLVIP数据集上进行了一系列消融实验。主要包括对图像融合损失的消融，包括强度损失、结构相似性（SSIM）损失、最大梯度损失和色彩一致性损失。如图6和表4所示，呈现了定性和定量结果。在定性结果方面，强度损失保留了目标显著的热辐射。色彩损失保持了一致的颜色。最大梯度损失提供了清晰的纹理信息。在定量结果方面，每种损失都对最终的定量评估结果有相应的贡献。我们的方法在所有消融方法中实现了最佳的定性和定量评估，这证明了该方法的有效性。

图6. 在LLVIP数据集上关于损失函数的消融实验定性比较。

表4. 在LLVIP数据集上关于损失函数的消融实验定量比较。（粗体：最优性能）

六.结论

本文扩展了图像融合任务，并提出了一种新颖的文本引导图像融合框架，旨在解决现有方法难以处理存在退化的复杂场景融合以及获取用户所需的、具有交互性的融合图像的问题。通过图像融合pipeline、文本语义特征提取以及语义交互引导模块，实现了由文本语义引导的图像融合目标。

大量实验结果证明，所提方法在融合性能与退化处理两方面均具有明显优势。该方法使得能够根据用户交互式文本输入自由生成相应的融合图像，这对实际应用以及后续理论研究具有重要促进作用。