【LLIE专题】基于生成感知先验的低照度图像增强

原创

已于 2025-07-07 22:25:28 修改 · 1.5k 阅读

标签

#图像处理 #深度学习 #低照度图像增强

于 2025-06-17 21:21:28 首次发布

在这里插入图片描述

Low-Light Image Enhancement via Generative Perceptual Priors（AAAI,2025）

专题介绍
一、研究背景
二、GPP-LLIE方法
三、实验结果
四、总结

本文将对 Low-Light Image Enhancement via Generative Perceptual Priors，这篇暗光增强算法进行讲解。参考资料如下：

[1]GPP-LLIE文章
 [2]GPP-LLIE代码

专题介绍

在低光照环境下，传统成像设备往往因画面昏暗、细节丢失而受限。LLIE（低照度暗光增强）技术应运而生，它通过提升图像亮度、对比度，减少噪点并恢复色彩细节，让暗夜变得清晰可见。

LLIE技术从传统方法如直方图均衡化、Retinex模型等起步，近年来借助深度学习，尤其是卷积神经网络（CNN），GAN模型，扩散模型实现了质的飞跃。这些算法能自动学习图像特征，精准处理低光照图像，效果显著优于传统技术。

本专题将聚焦LLIE技术的核心原理、应用案例及最新进展，让我们一起见证LLIE如何点亮暗夜，开启视觉新视界！欢迎一起探讨交流！

系列文章如下
【1】ZeroDCE
【2】HVI
【3】CLIP-LIT
【4】GLARE
【5】Retinexformer
【6】SG-LLIE

一、研究背景

暗光增强由于实际场景中光照条件复杂多样，生成视觉上逼真的增强效果仍是一个非常有难度的任务。本文作者提出了一种基于生成感知先验（GPP-LLIE）的新型低光照图像增强框架，该框架的生成感知先验源自视觉语言模型（VLMs）。

二、GPP-LLIE方法

1.总体方案及创新点

在这里插入图片描述

具体而言，作者首先提出了一个pipeline，引导视觉语言模型评估低光照图像的多种视觉属性，并将评估结果量化，以输出全局和局部感知先验。
在这里插入图片描述

随后，为了将这些生成感知先验融入低光照图像增强过程，在扩散过程中引入了一个基于Transformer的主干网络，并开发了一种由全局和局部感知先验引导的新型层归一化（GPP-LN）和注意力机制（LPP-Attn）。

本文创新点如下：

(1) 基于预训练的视觉语言模型（VLM），从全局和局部获取低光图像的生成感知先验。
(2) 在全局和局部生成感知先验的指导下，为低光图像增强（LLIE）开发了一种基于Transformer的高效扩散框架（GPP-LLIE）。
(3) 引入全局感知先验来调节层归一化（GPP-LN），并利用局部感知先验来引导transformer中的注意力机制（LPP-Atn）以改善增强过程。

2.详细方案

主要分为三个部分：

说明在低光照图像增强（LLIE）任务中采用源自视觉语言模型（VLM）的指导的动机。
提出了一种创新的pipeline，该pipeline引导视觉语言模型(VLM)从全局和局部评估低光照图像的视觉属性，然后通过引入基于Sigmoid的量化策略提取感知先验。
开发了一个基于Transformer的扩散结构，并结合这些先验来指导反向扩散过程。

2.1 动机

低光照图像增强普遍遇到的情况是训练数据和真实遇到的情况难以保证一致，当前的LLIE方法普遍无法在不同光照条件下自适应地增强图像。因此，使模型能够自主感知并适应各种视觉失真至关重要。受近期涌现的视觉语言模型（VLM）在低级视觉感知与理解方面所展现能力的启发，作者想到了利用VLM的这些感知能力来推动低光照图像增强任务的潜力。

需要注意的是利用语言模型进行图像增强任务并不罕见，比如之前介绍的CLIP-LIT，也是利用了语言模型作为损失函数进行增强。其实，并非暗光增强任务可以用语言模型作为先验，其他图像增强复原任务也可以，比如图像复原，图像去雾，图像超分等。

2.2 VLM提取感知先验

视觉语言模型（VLMs）通常使用数百万个文本-图像对进行训练；因此，利用视觉语言模型中固有的先验信息来帮助低光照图像增强（LLIE）模型在恢复过程中做出更合适的决策，从本质上来说是很有前景的。本文采用的视觉语言模型是LLaVA（LLaVA 是由 Haotian Liu 等人开发的开源端到端训练的大型多模态模型，全称为 Large Language and Vision Assistant，旨在实现 GPT - 4 级别的视觉 - 语言交互能力）。

在本文中，作者通过设计文本提示；引导LLaVA评估低光照图像的多种视觉属性；引入量化策略，输出量化的全局评估和局部质量图；来作为低光照图像增强的感知先验。流程图是上图Figure2。

设计文本提示
作者提供了几个低层次视觉属性供选择，并给出相应的定义，以帮助视觉语言模型更好地理解评估任务。具体来说，给定一张图像 $img_{0}>$ ，可以从中选择属性进行评估。由于低光照图像增强旨在提高低光照图像的对比度、可见度和清晰度，我们可以在低光照输入中依次评估这些属性。
进行评估
①全局评估：对全图进行评估；
②分块评估：考虑到低光图像中对比度、可见度和清晰度的变化，作者提出了提取局部评估以进行细粒度增强。具体来说，输入的被分割成几个不重叠的图像块 $img_{1}>$ ，每个图像块都输入到LLaVA中以获取局部评估。
对话期间的整体评估指令定义为图2中的<Evaluation_Command>。
量化策略
这里可以理解为如何把VLMs模型的评估转化成数值进行量化
本文策略是依据“好”与“差”在评价结果中出现的概率来设计的。量化的全局分数S计算为 $S=(1+e^{-(P_{pos }-P_{neg }) / \alpha})^{-1}$

最低0.47元/天解锁文章