目录
前言
笔记主要学习的是CVPR2020上发表的一篇Oral文章,主要思路是作者使用变分自动编码机(VAE)将图像变换到潜在空间(也称隐空间)中,在潜在空间中通过特征对齐和特征转换的方式来完成对老照片的图像修复。
这篇论文的方法不同于普通的潜在空间转换,他们通过利用真实照片和大量合成图像提出了一种新颖的三个图片域之间的图片翻译(triplet domain translation),也有人称为三联图像域翻译。该算法减少了老照片和合成图像之间的域间隙,并在潜在空间学习到高清图像的转换。
一、问题与核心思想
在深度学习时代之前,有一些尝试,通过自动检测划痕、瑕疵等局部缺陷,用修复技术对受损区域进行填充来恢复照片。但这些方法都侧重于弥补缺失的内容,没有一种方法能够修复空间均匀的缺陷,如胶片颗粒、乌贼效应、颜色褪色等,所以修复后的照片与现代摄影图像相比仍然显得过时。
随着深度学习的出现,利用卷积神经网络强大的表示能力,即从大量合成图像中学习特定任务的映射,可以解决模糊、噪声、低分辨率等各种低级图像恢复问题。
但这样的框架并不能适用于老照片的修复,原因有三点:
- 老照片的退化过程复杂,并没有能完全渲染老照片伪影的退化模型。因此,从合成数据中学习到的模型对真实照片的泛化效果很差;
- 老照片存在复合退化的问题,需要不同的修复策略:空间上同质的非结构化缺陷,如胶片颗粒和颜色褪色,应该利用附近的像素来修复,而结构化缺陷,如划痕、尘埃点等,应该用全局的图像上下文来修复,此前的大多数方法只考虑其中一方面。
- 人们对面部周围的微小伪物很挑剔,但基于一般自然图像训练的网络无法捕捉面部的内在特征。因此,特别是考虑到人脸在老照片中所占比例较大,需要一个针对人脸修饰的网络。
针对这些问题,本篇论文将对老照片的修复问题表示为一个三联域转换(triplet domain translation)的问题,三个图像域分别是:
- R:表示真实旧照片域;
- X:人工引入的经过退化处理的合成图片域(synthetic images suffer from artificial degradation);
- Y:和X对应的完好无损的真值域(可理解为X是由Y退化而来)。
既然直接修复真实的老照片R十分困难,那么本论文中就另辟蹊径,采用一种弱监督方案。首先引入两个图像域X和Y,由于X与Y是退化-真实的图像对,所以训练X到Y的映射是可行的,如果能够让R也通过这样的映射得到高质量的Y图像域图像,那么是不是就完成了对R的修复呢?
而本文中为了是R能够适用X-Y的映射,使用的方法是——对齐X和R的潜在空间,通过缩小X与R之间的域间隙,从而使X≈R,从而使R也可以通过X-Y的映射关系进行修复。
<

本文介绍了CVPR2020一篇关于老照片修复的文章,提出了一种三联域转换方法,利用变分自编码器(VAE)将图像映射到潜在空间并进行对齐,解决了老照片修复的挑战。通过训练映射网络,修复网络结合全局和局部修复策略,尤其针对人脸区域进行了细节增强,实现了高质量的图像修复。

4879

被折叠的 条评论
为什么被折叠?



