【论文阅读| TPAMI 2020 | U2Fusion：一种统一的无监督图像融合网络】

最新推荐文章于 2026-05-08 23:45:58 发布

原创

最新推荐文章于 2026-05-08 23:45:58 发布 · 1.2k 阅读

标签

#论文阅读

【论文阅读| TPAMI 2020 | U2Fusion：一种统一的无监督图像融合网络】

1.摘要&&引言&&相关工作
2.方法
4.实验结果与讨论
5.消融实验
6.结论

在这里插入图片描述

题目：U2Fusion: A Unified Unsupervised Image Fusion Network

会议：TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE（TIPAMI）

论文：https://ieeexplore.ieee.org/abstract/document/9151265

代码：https://github.com/hanna-xu/U2Fusion

年份：2020

1.摘要&&引言&&相关工作

本研究提出了一种新颖的统一无监督端到端图像融合网络，称为 U2Fusion，它能够解决不同的融合问题，包括多模态、多曝光和多聚焦情况。

在信息保留方面，首先采用特征提取器从源图像中提取丰富全面的特征，然后度量特征中的信息丰富度，以定义这些特征的相对重要性，这反映了源图像与融合结果之间的相似关系。相似度越高，意味着该源图像在结果中保留的信息越多，信息保留程度也就越高。基于这些策略，训练一个 DenseNet 模块来生成融合结果，且无需真实标签。我们工作的特点和贡献总结如下：

我们为各种图像融合任务提出了统一框架。具体而言，用统一的模型和参数解决不同的融合问题，该方案缓解了不同问题分别求解、训练时的存储和计算问题，以及持续学习中的灾难性遗忘问题。
我们通过约束融合图像与源图像之间的相似性，开发了一种新的无监督图像融合网络，克服了大多数图像融合问题中普遍存在的障碍，即缺乏通用真实标签和无参考度量标准。
我们发布了新的对齐红外和可见光图像数据集 RoadScene，为图像融合基准评估提供了新选择，可在https://github.com/hanna-xu/RoadScene获取。
我们在六个数据集上对多模态、多曝光和多聚焦图像融合进行了测试，定性和定量结果验证了 U2Fusion 的有效性和通用性。

传统融合框架大致可概括为图 2。由于重建通常是提取的逆过程，这些算法的关键在于两个重要因素：特征提取和特征融合。通过对它们进行修改，这些方法可用于解决多模态、多曝光或多聚焦图像融合问题。

在这里插入图片描述

图2. 传统图像融合框架。

然而，这些手动设计的提取方法使融合方法日益复杂，增加了设计融合规则的难度。

为避免设计融合规则，许多基于深度学习的算法应运而生。与之前方法不同，这些方法通常是针对特定融合任务的端到端模型

考虑到上述限制，我们提出了一种统一的无监督图像融合网络，具有以下特点：

它是一个端到端模型，不受手动设计融合规则的限制；
它是一个适用于各种融合任务的统一模型，而不是针对特定目标（如独特问题、度量标准的特异性、二值掩码的需求等）；
它是一个无监督模型，无需真实标签；
通过持续学习解决新任务且不丧失旧能力，它用统一的参数解决多个任务.

2.方法

2.1 问题公式化

聚焦于图像融合的主要目标，即保留源图像中的关键信息，我们的模型基于度量来确定信息的丰富程度。

如果源图像包含丰富的信息，那么它对融合结果就非常重要，融合结果应与该源图像具有较高的相似性。

因此，我们方法的关键问题是探索一种统一的度量方法，来确定源图像的信息保留程度。与监督学习中最大化融合结果与真实标签之间的相似性不同，我们的方法依赖于这些程度来保持与源图像的自适应相似性。而且，作为一个无监督模型，它适用于难以获得真实标签的多种融合问题。

对于所需的度量，一个主要问题是不同类型源图像中的关键信息差异很大。
例如：

在 IR 和正电子发射断层扫描（PET）图像中，关键信息是热辐射和功能响应，表现为像素强度分布；
在 VIS 和磁共振成像（MRI）图像中，关键信息是反射光和由图像梯度表示的结构内容；
在多聚焦图像中，要保留的信息包括景深（DoF）内的物体；
在多曝光图像中，关键信息涉及可增强的场景内容。

上述可变性给设计统一的信息度量带来了相当大的困难，为特定任务设计的度量标准在面对其他问题时不再有效。它们基于某些表面特征或特定属性，而在不同任务中，这些很难以统一的方式预先确定。我们通过综合考虑源图像的多方面属性来解决这个问题，为此，我们提取浅层特征（纹理、局部形状等）和深层特征（内容、空间结构等）来估计信息度量。

U2Fusion 的整体流程如图 3 所示，其核心是通过 DenseNet 实现多曝光图像融合，具体步骤如下：

输入与目标

输入图像：源图像 $I_1$ （过曝光）和 $I_2$ （欠曝光）
输出图像：融合图像 $I_f$ ，需同时保留两图的纹理与内容信息

特征提取与信息度量

使用预训练 DenseNet 提取特征图：
$\phi_{C_1}(I_1), \cdots, \phi_{C_5}(I_1) \quad \text{和} \quad \phi_{C_1}(I_2), \cdots, \phi_{C_5}(I_2)$
对特征图进行信息度量，生成量化指标：
$g_{I_1}, \, g_{I_2}$
后续处理后得到信息保留程度：
$\omega_1, \, \omega_2$

损失函数与优化

无监督训练：无需真实标签，直接利用以下变量构建损失函数：
$f(I_1, I_2, I_f, \omega_1, \omega_2)$
训练阶段：
1. 计算 $\omega_1$ 和 $\omega_2$ 衡量信息保留差异
2. 通过反向传播优化 DenseNet 参数，最小化损失函数
测试阶段：
- 直接输入 $I_1$ 和 $I_2$ 生成 $I_f$
- 无需重复计算 $\omega_1$ 和 $\omega_2$

在这里插入图片描述

图3：U2Fusion整体流程框架

注： $\omega_1$ 和 $\omega_2$ 动态反映图像信息完整性，通过特征图的全局统计特性（如熵、梯度分布）计算得出。

2.1.1 特征提取

与在融合任务中训练的模型相比，用于其他计算机视觉任务的模型通常在更大且更多样化的数据集上进行训练，因此这些模型提取的特征丰富且全面。受感知损失的启发，我们采用预训练的 VGG-16 网络进行特征提取，如图 4 所示。具体流程如下：

输入处理
输入图像 $I$ 已统一为单通道（我们将在 3.5 节讨论此转换），随后将其复制为三个通道并输入到 VGG-16 中。
特征提取阶段
- 最大池化层之前的卷积层输出被用作后续信息度量的特征图，记为 $\phi_{C_{1}}(I), \cdots, \phi_{C_{5}}(I)$ 。
- 特征图的形状及层次特性如下：
  - 浅层特征（ $\phi_{C_1}(I)$ 和 $\phi_{C_2}(I)$ )
    基于纹理和形状细节等浅层特征。在过曝光图像中，由于亮度较高，其特征图仍比欠曝光图像包含更多纹理细节或更大梯度。
  - 深层特征（ $\phi_{C_4}(I)$

最低0.47元/天解锁文章