Toward Multimodal Image-to-Image Translation（BicycleGAN）图像一对多转换测试

最新推荐文章于 2025-10-24 21:23:04 发布

原创最新推荐文章于 2025-10-24 21:23:04 发布 · 6.7k 阅读

11 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#BicycleGAN #Nips 2017 #生成模型

pytorch，GAN 专栏收录该内容

2 篇文章

订阅专栏

BicycleGAN是一种创新的图像转换模型，能够解决一对一转换中存在的歧义问题，实现从单一输入图像生成多种风格的目标图像。该模型结合了cVAE-GAN和cLR-GAN两种方法，通过学习潜在空间的分布特性来生成多样化的输出。

CycleGAN、pix2pix、iGAN的主要贡献者最近在NIPS　2017上又推出了一篇文章Toward Multimodal Image-to-Image Translation（见https://junyanz.github.io/BicycleGAN/，https://arxiv.org/pdf/1711.11586.pdf），讨论如何从一张图像同时转换为多张风格不一成对的图像。

从作者摘要第一句可以看出：“Many image-to-image translation problems are ambiguous, as a single input image　may correspond to multiple possible outputs. In this work, we aim to　model　a distribution of possible outputs in a conditional generative modeling setting.”　像pix2pix这样的图像转换（一对一）的方式是存在歧义的，因为不可能只对应一个输出。因此作者提出了一种一对多的输出，即将可能输出的图像是存在一定的分布特性的。

论文的主要方法如下图所示，即作者结合了两种GAN来实现。

其原理框图如下所示：

其中cVAE-GAN（条件变分自编码GAN），即通过VAE来学习图像输出的隐分布，进行建模多样式输出分布方法。如上图（C）所示，cVAE-GAN 首先从ground truth目标图像B开始并将它编码到隐空间中。然后生成器试图将输入图像A连同样本z逆映射到原始图像B。

cLR-GAN（条件潜在回归GAN）：从随机抽样的隐编码开始，条件生成器应该产生一个输出，当它作为输入给编码器时，它应该返回相同的隐编码，从而实现自我一致性。cLR-GAN从一个已知的分布中随机采样隐编码，利用这个编码将A映射到输出B，然后试图从输出中重建隐编码。
那么BicycleGAN就是综合了上面两个模型，得到以下的模型：