论文阅读：Deep Learning Approaches for Data Augmentation in Medical Imaging: A Review

最新推荐文章于 2026-06-20 21:59:02 发布

原创最新推荐文章于 2026-06-20 21:59:02 发布 · 1.1k 阅读

25 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#论文阅读 #深度学习 #人工智能

论文阅读同时被 2 个专栏收录

20 篇文章

订阅专栏

图像生成

19 篇文章

订阅专栏

0. Abstract

背景：

医学图像数据获取成本高且受隐私法规约束，越来越多的研究提出使用深度生成模型来生成更符合数据真实分布的、逼真且多样化的数据。

工作：

概述了变分自编码器、生成对抗网络和扩散模型的最新技术进展；
讨论了它们在医学成像中不同下游任务中的潜在应用，包括分类、分割和跨模态转换；
评估了每种模型的优势和局限性；
提出了未来研究的建议方向。

目标：

我们的目标是全面综述深度生成模型在医学图像增强中的应用，并强调这些模型在提高医学图像分析中深度学习算法性能方面的潜力。

1. Introduction

生成对抗网络（GANs）已展示了生成逼真图像的能力，因此该架构在医学领域被广泛应用，并被纳入多项数据增强综述。然而，GANs也存在一些缺点，如学习不稳定、难以收敛以及模式崩溃，即生成器仅生成少量样本的状态。
变分自编码器（VAEs）是另一种深度生成模型，在数据增强中受到的关注较少。VAEs在输出多样性方面优于GANs，且不会出现模式崩溃，但其主要问题是生成的图像往往模糊不清，这是由于损失函数中的正则化项导致的。
扩散模型（DMs）展现出生成逼真且多样化输出的强大能力，有望取得显著成果。然而，DMs仍处于起步阶段，在医学领域尚未广泛应用，但预计将成为之前生成模型的有力替代者。DMs的缺点之一是其高计算成本和较长的采样时间。

文献出处：
期刊：《IEEE Transactions in Medical Imaging》、《Medical Image Analysis》
会议：Medical Image Computing and Computer Assisted Intervention、IEEE International Symposium on Biomedical Imaging

2. Background

(a) 生成对抗网络（GANs），由生成器和判别器网络组成，通过对抗训练生成逼真数据；(b) 变分自编码器（VAEs），由编码器和解码器网络组成，通过重建数据并学习紧凑的潜在表示进行训练；© 扩散模型，通过一系列步骤的前向和后向信息流来建模数据分布：

2.1. Generative Adversarial Networks

G和D的损失函数可以表示如下：
$LG=min⁡θEz∼p(z)[log⁡Dϕ(Gθ(z))]L_G = \min_{\theta} \mathbb{E}_{z \sim p(z)} \left[ \log D_{\phi}(G_{\theta}(z)) \right]$
$LD=max⁡ϕ(Ex∼p(x)[log⁡Dϕ(x)]+Ez∼p(z)[log⁡(1−Dϕ(Gθ(z)))])L_D = \max_{\phi} \left( \mathbb{E}_{x \sim p(x)} \left[ \log D_{\phi}(x) \right] + \mathbb{E}_{z \sim p(z)} \left[ \log \left( 1 - D_{\phi}(G_{\theta}(z)) \right) \right] \right)$
其中θ和φ分别是生成器和判别器神经网络对应的可学习参数。(LG是不是不对)

GAN 的本质是一个博弈，其中生成器 G 和判别器 D 互相对抗，类似于纳什均衡。
理想情况下，GAN 训练会收敛到纳什均衡，即：
- 生成器 G 生成的数据分布 $p_G(x)$ 和真实数据分布 $p (x)$ 完全相同，即： $KaTeX parse error: Can't use function '$' in math mode at position 2: $̲p_G(x) = p(x)$
- **判别器 D 无法区分真实和生成的数据，即 $D (x) = D (G (z)) = 0.5$
但在实际训练中，GAN 常常遇到模式崩溃、训练不稳定等问题，需要采用改进方法来优化。
- 模式崩溃（Mode Collapse）
  - 生成器可能会找到一种作弊方式，生成少量固定的高置信度假样本，而不是学到完整的真实数据分布。
  - 结果是生成器输出的样本多样性不足。
- 训练不稳定
  - 在某些情况下，生成器和判别器的训练不均衡，导致其中一方学习得太快或太慢。
  - 例如：
    - 如果判别器训练过强，生成器可能学不到有效信息，导致梯度消失。
    - 反之，如果判别器太弱，生成器不会受到足够的挑战，也无法提升质量。
- 没有明确的收敛判据
  - 在常见的优化问题（如最小化 MSE）中，损失下降意味着收敛。
  - 但在 GAN 中，损失函数的变化不能直接反映生成质量的提升，训练的终止条件难以判断。

2.2. Variational Autoencoders

变分推断是一种贝叶斯推断技术，它允许我们用一个更简单的分布 $q (z ∣ x)$ 来估计后验分布 $p (z ∣ x)$ 。变分推断的目标是最小化后验分布 $p_θ(z|x)$ 和变分分布 $q_φ(z|x)$ 之间的Kullback-Leibler散度，其中 $θ$ 和 $φ$ 分别表示后验分布和变分分布的参数。
Kullback-Leibler散度是最常用的度量方法，基于该散度的损失函数定义如下：
$min⁡θ,ϕDKL(qϕ(z∣x)∥pθ(z∣x))=min⁡θ,ϕEz∼qϕ[log⁡qϕ(z∣x)pθ(z∣x)]\min_{\theta, \phi} D_{KL}\left( q_{\phi}(z|x) \| p_{\theta}(z|x) \right) = \min_{\theta, \phi} \mathbb{E}_{z \sim q_{\phi}} \left[ \log \frac{q_{\phi}(z|x)}{p_{\theta}(z|x)} \right]$

经过进一步简化并应用Jensen不等式，可以将上述方程重写为：
$log⁡pθ(x)=−Ez∼qϕ[log⁡qϕ(z∣x)]+Ez∼qϕ[log⁡pθ(z,x)]+DKL(qϕ(z∣x)∥pθ(z∣x))\log p_{\theta}(x) = -\mathbb{E}_{z \sim q_{\phi}} \left[ \log q_{\phi}(z|x) \right] + \mathbb{E}_{z \sim q_{\phi}} \left[ \log p_{\theta}(z, x) \right] + D_{KL}\left( q_{\phi}(z|x) \| p_{\theta}(z|x) \right)$
$log⁡pθ(x)≥−Ez∼qϕ[log⁡qϕ(z∣x)]+Ez∼qϕ[log⁡pθ(z,x)]≥Ez∼qϕ[log⁡pθ(x∣z)]−Ez∼qϕ[log⁡qϕ(z∣x)p(z)]=ELBO\log p_{\theta}(x) \geq -\mathbb{E}_{z \sim q_{\phi}} \left[ \log q_{\phi}(z|x) \right] + \mathbb{E}_{z \sim q_{\phi}} \left[ \log p_{\theta}(z, x) \right] \geq \mathbb{E}_{z \sim q_{\phi}} \left[ \log p_{\theta}(x|z) \right] - \mathbb{E}_{z \sim q_{\phi}} \left[ \log \frac{q_{\phi}(z|x)}{p(z)} \right] = \text{ELBO}$
其中， $logp_θ(x)$ 是数据 x 的边际对数似然， $p (z)$ 是潜变量 z 的先验分布，通常建模为高斯分布，ELBO（Evidence Lower Bound）是证据下界。
通过最小化 $D_{KL}(q_ϕ(z∣x)∥p_θ(z∣x))$ ，可以学习变分分布 $q_ϕ(z∣x)$ ，这等价于在固定 θ 时最大化 ELBO。
ELBO 可进一步分解为两项：重构项（reconstruction term）和正则化项（regularization term）。

重构项衡量输入数据与其重构结果之间的差异，通常通过二元交叉熵损失（binary cross-entropy loss）计算。
正则化项确保潜变量服从目标分布（如正态分布），通过计算潜变量分布与目标分布之间的 Kullback-Leibler 散度得到。
$Lrec=Ez∼qϕ(z∣x)[log⁡pθ(x∣z)]L_{\text{rec}} = \mathbb{E}_{z \sim q_{\phi}(z|x)} \left[ \log p_{\theta}(x|z) \right]$
$Lreg=Ez∼qϕ(z∣x)[log⁡qϕ(z∣x)p(z)].L_{\text{reg}} = \mathbb{E}_{z \sim q_{\phi}(z|x)} \left[ \log \frac{q_{\phi}(z|x)}{p(z)} \right].$

2.3. Diffusion Probabilistic Models

扩散模型是一类基于扩散过程的生成模型。扩散过程是一种随机过程，可视为参数化的马尔可夫链。链中的每次转移逐渐向初始数据点x0（服从分布q(x)）添加高斯噪声。扩散过程可表示为：
$q(xt∣xt−1)=N(αtxt−1,βtI)q(x_t | x_{t-1}) = \mathcal{N}\left( \sqrt{\alpha_t} x_{t-1}, \beta_t I \right)$
$q(x1:T∣x0)=∏t=1Tq(xt∣xt−1)q(x_{1:T} | x_0) = \prod_{t=1}^T q(x_t | x_{t-1})$
其中，βt ∈ [0, 1]，t = 1, …, T 为预定义的第 t 步噪声方差，αt = 1 − βt，T 为总步数。扩散模型通过从噪声输入 xT ∼ N(0, I) 开始，逆向扩散过程并重建初始数据点 x0 进行训练。
去噪过程可视为一种生成模型，反向扩散过程可表述如下：
$pθ(x0:T)=p(xT)∏t=1Tpθ(xt−1∣xt)p_{\theta}(x_{0:T}) = p(x_T) \prod_{t=1}^T p_{\theta}(x_{t-1} | x_t)$
$q(xt−1∣xt)=N(μ(xt,t),Σ(xt,t)).q(x_{t-1} | x_t) = \mathcal{N}\big( \mu(x_t, t), \Sigma(x_t, t) \big).$
其中，μ(xt, t) 和 Σ(xt, t) 是去噪模型在第 t 步的均值和方差。与 VAE 类似，扩散模型通过最大化证据下界（ELBO）来学习在每一步重建真实样本，从而匹配真实的去噪分布 q(xt−1|xt) 和学习的去噪分布 pθ(xt−1|xt)。在训练结束时，扩散模型能够通过逆向扩散将噪声输入 xT 映射到初始数据点 x0；因此，可以通过从先验分布 N(0, I) 中采样随机噪声向量 xT 并将其输入模型来合成新的数据点。

2.4. Exploring the Trade-Offs in Deep Generative Models: The Generative Learning Trilemma

2.4.1. Generative Adversarial Networks

VAE、GAN和DM的设计与训练常常需要在快速采样、高质量样本和模式覆盖之间进行权衡，这被称为生成学习三难困境。
为了解决模式崩溃问题，已经提出了几种GAN的变体。
一种流行的方法是Wasserstein GAN (WGAN) ，它用Wasserstein距离取代了原始GAN中使用的Jensen-Shannon散度，Wasserstein距离是一种衡量两个概率分布之间距离的度量，其优势在于提高了生成样本的质量。
一个广泛使用的扩展是条件GAN (CGAN)，它在生成器的潜在向量z中添加了条件变量y，从而允许对生成样本进行更多控制，并部分缓解模式崩溃。CGAN可以被视为一种生成模型，能够根据y生成数据点x，并建模联合分布p(x, y)。
Isola等人引入了带有条件生成器的GAN，通过用U-Net取代传统的噪声到图像生成器，学习将一个领域的图像转换为另一个领域。对抗学习过程使U-Net能够基于对底层数据分布的更好理解生成更逼真的图像。

GAN的其他变体包括深度卷积GAN（DCGAN）、渐进增长GAN（PGGAN）、CycleGAN、辅助分类器GAN（ACGAN）、VAE-GAN等，这些变体被提出以解决训练稳定性、可扩展性和生成样本质量等问题。

在这里插入图片描述

2.4.2. Variational Autoencoders

VAE通过最大化数据的似然性进行训练，这使得它在需要快速采样和良好数据分布覆盖的任务中成为理想选择。
通过变分推断方法，VAE能够更好地近似给定随机噪声向量的真实数据分布，从而降低模式崩溃的风险。此外，VAE能够提取相关特征，并学习到平滑的数据的潜在表示，允许在空间中对点进行插值，从而更好地控制生成样本。
VAEs在数据增强中的应用并不常见，这主要是由于其生成的样本往往显得模糊且不清晰。

逆自回归流、InfoVAE 或 VQ-VAE2，已被提出以提高VAE生成样本的质量以及模型的变分特性。

VAE-GAN，结合了VAEs和GANs的优势，生成高质量、多样化且逼真的合成样本。虽然VAE-GANs无法完全解决VAEs生成质量低的问题，但它们通过引入GANs的对抗训练目标，部分改善了这一问题，从而提升了生成样本的视觉质量和清晰度，同时保留了VAEs学习数据紧凑潜在表示的能力。

条件VAEs（CVAEs），通过在生成过程中引入额外信息（如类别标签或属性）来控制输出样本。可以生成代表数据中特定亚组或条件的合成样本。通过使用条件VAEs，可以生成更具针对性和相关性的合成样本，适用于特定任务或分析。

2.4.3. Diffusion Models

DMs通过扩散过程用一系列简单分布逼近数据分布的方式，使得它们能够捕捉复杂的高维分布，并生成高度代表底层数据的样本。
扩散模型的采样时间比其他深度生成模型（如VAE和GAN）更长。

渐进蒸馏，将经过训练的确定性扩散采样器蒸馏为采样步骤减半的新扩散模型。
快速扩散概率模型（FastDPM），通过修改优化算法减少采样时间，并引入连续扩散过程的概念，或使用非马尔可夫扩散模型，如去噪扩散隐式模型（DDIM）。类似于VAE-GAN，提出了去噪扩散GAN，这是一种介于扩散模型和多模态条件GAN之间的混合架构，与原始扩散模型相比，其采样速度显著提高（×2000倍）。

3. Deep Generative Models for Medical Image Augmentation

讨论医学成像中最常见的任务：分类、分割和跨模态图像转换。

3.1. Generative Adversarial Networks

Han等人提出了使用两种GAN变体来生成（二维）MRI序列：WGAN和DCGAN，其中卷积和批量归一化的组合取代了全连接层。同一作者进一步提出将PGGAN与传统数据增强技术（如几何变换）结合使用。

条件变量y作为生成图像的真实标签，可以以多种形式表达，包括类别标签、分割图或翻译图。
Frid-Adar等人提出使用ACGAN来合成CT图像中的肝脏病变。

Guibas等人提出了一种两阶段流程，用于生成带有血管分割掩码的合成眼底照片。在第一阶段，使用DCGAN生成合成分割掩码；在第二阶段，使用CGAN将这些合成掩码转换为逼真的眼底图像。

Platscher等人提出使用两步图像翻译方法生成带有缺血性卒中病变掩码的MRI图像。第一步使用WGAN生成合成卒中病变掩码。新生成的虚假病变被植入健康的脑部解剖分割掩码中。最后，将这些分割掩码输入预训练的图像翻译模型，将掩码映射为真实的缺血性卒中MRI图像。作者研究了三种不同的图像翻译模型：CycleGAN、Pix2Pix和SPADE，并报告称Pix2Pix在视觉质量方面表现最佳。

Yurt等人提出了一种多流方法，利用基于GAN的架构从其他高质量对比度生成缺失或损坏的MRI对比度。生成器由多个一对一流和一个联合的多对一流组成，分别设计用于学习对源图像独特特征和共同特征敏感的潜在表示。在一对一流中生成的互补特征图和在多对一流中生成的共享特征图通过融合块结合，并输入到推断最终图像的联合网络中。
该研究探讨了两项任务：(a) 从T2加权和PD加权图像合成T1加权图像，(b) 从T1加权和T2加权图像合成PD加权图像。所提出方法的结果优于其他GAN变体，如pGAN和MM-GAN，突显了其在医学影像合成中的有效性。

3.2. Variational Autoencoders

Zhuang等人对使用深度生成模型（如VAE和GAN）进行3D功能MRI数据增强进行了实证评估。CVAE和条件WGAN能够生成多样化且高质量的大脑图像。

Pesteie等人提出了一种CVAE的修订版本，称为ICVAE，它将输入数据和条件变量的嵌入空间分离。这使得生成的图像特征独立于条件变量，从而产生更多样化的输出。
相比之下，标准CVAE将数据和条件变量编码在共享的嵌入空间中。作者分别使用脊柱的横向超声图像和大脑的FLAIR MRI图像对ICVAE进行了分类和分割任务的评估。作者展示了使用ICVAE架构生成的合成MRI和超声图像，这些图像分别以肿瘤分割掩码和脊柱中心线标签为条件。

Chadebec等人提出了一种新颖的几何感知VAE，用于低样本量设置下的高维数据增强。该模型结合了黎曼度量学习和归一化流，以提高后验分布的表达能力，并学习数据的有意义的潜在表示。
作者提出了一种基于哈密顿蒙特卡罗的新非先验采样方案，因为使用先验分布的标准程序高度依赖于数据，尤其是在小数据集的情况下。因此，生成的样本比传统VAE生成的样本明显更逼真，并且模型对数据缺乏更具弹性。

Huo等人提出了一种基于渐进式VAE的架构（PAVAE），用于生成带有相关分割掩码的合成脑部病变。作者提出了一个两步流程：第一步是基于条件对抗VAE生成合成分割掩码，CVAE通过“条件嵌入块”将病变的高级语义信息编码到特征空间中；第二步是使用“掩码嵌入块”生成基于病变掩码的逼真病变图像，该块在生成过程中将病变掩码编码到特征空间，类似于SPADE。

Yang等人提出了条件变分自编码生成对抗网络（CAE-ACGAN）。CAE-ACGAN结合了VAE和GAN的优势，构建了一个端到端的架构。通过整合VAE和GAN，并引入辅助判别分类器网络，该模型部分解决了图像模糊和模式崩溃带来的挑战。此外，VAE在编码器和解码器之间加入了跳跃连接，从而提升了生成图像的质量。除了将3D CT图像转换为对应的MR图像外，CAE-ACGAN还通过其判别器生成了更加逼真的图像，判别器在此充当了质量保证机制。

3.3. Diffusion Models

Pinaya等人提出了一种利用潜在扩散模型（LDM）生成高分辨率3D磁共振图像的新方法。LDM是一种结合了自编码器和扩散模型的生成模型，用于合成新数据。LDM中的自编码器部分将输入数据压缩为低维潜在表示，而扩散模型部分则基于该潜在表示生成新数据样本。

Fernandez等人提出了一种名为brainSPADE的生成模型，用于合成可用于训练分割模型的标注脑部MRI图像。该模型将扩散模型与VAE-GAN相结合，其中GAN组件特别利用SPADE归一化来融入分割掩码。该模型由两个组件组成：分割图生成器和图像生成器。分割图生成器是一个VAE，它接收分割图作为输入，然后对其进行编码并构建潜在空间。为了专注于语义信息并忽略不重要的细节，潜在代码随后通过LDMs进行扩散和去噪。这创建了一个高效的潜在空间，强调有意义的信息，同时过滤掉噪声和其他不重要的细节。VAE解码器随后从该潜在空间生成人工分割图。图像生成器是一个SPADE模型，它从任意风格构建风格潜在空间，并将其与人工分割图结合以解码最终输出图像。

Lyu和Wang采用了两种基于扩散的方法：条件DDPM和利用随机微分方程的条件得分模型。这些方法涉及在T2加权MRI图像上对逆过程进行条件化。

4. Key Findings and Implications

LDM与DDPM的区别在于
LDM能够通过构建低维潜在表示并对其进行扩散来建模数据中的长程依赖关系，
而DDPM则直接将扩散过程应用于输入图像。

Saeed等人展示了基于文本条件LDM在病变识别任务中的能力。

表4总结了所审查研究中使用的数据集。该表包括数据集标题、参考文献、公共存储库链接（如果可用）、研究模式和解剖结构等信息。

许多研究依赖于浅层指标，如平均绝对误差、峰值信噪比或结构相似性，这些指标并不能准确反映图像的视觉质量。

研究人员提出了不同的评估方法。最著名的方法是通过下游任务（如分割或分类）验证生成样本的质量。

另一种方法是使用基于深度学习的指标，如学习感知图像块相似性（LPIPS）、Fréchet初始距离（FID）或初始分数（IS），这些指标旨在更好地反映人类对图像质量的判断。
LPIPS通过使用预训练的深度神经网络测量两幅图像的感知相似性。FID和IS是图像生成中其他流行的基于深度学习的指标，已广泛用于各种图像生成任务中，以评估生成样本的质量和多样性。

表5总结了用于评估本文讨论的各种模型性能的指标。

我们认为GAN只是被暂时搁置，并未完全被抛弃。
随着GigaGAN和StyleGAN-T的发布，GAN通过生成与扩散模型相媲美甚至更好的结果，重新引起了关注。

Song等人提出了一种称为无训练去噪扩散隐式模型（DDIM）的扩散模型变体，旨在通过用非马尔可夫过程替换DDPM中的马尔可夫过程来加速采样。

快速扩散概率模型（FastDPM）引入了具有更小时间步长的连续扩散过程概念，以减少采样时间。

5. Conclusions

VAE能够学习数据的有意义且解耦的表示，这对于可解释性和潜在空间操作非常有用。尽管有这些优势，VAE可能会生成模糊且缺乏重要细节的图像，这在医学成像中尤为成问题。为应对这一局限，改进的VAE变体已被开发，如矢量量化VAE，它利用强大的先验生成具有更高一致性和保真度的合成样本。另一种方法是将VAE与对抗学习结合，以提高生成图像的细节水平。
GAN被发现能够生成具有精细细节的高质量图像，并且由于其仅上采样的架构，内存效率较高。然而，GAN训练困难且可能遭遇模式崩溃。WGAN和小批量判别等技术有助于稳定GAN训练，增加训练集规模也有效果。
扩散模型被证明能够生成具有更高锐度和精细细节的高质量图像，优于以往的生成模型，但它们需要大量计算资源进行训练，且可解释性较低。研究人员目前正在探索减少扩散模型采样时间的方法，如渐进蒸馏、FastDPM和DDIM变体。