大模型学习路线（9）——AIGC系列

原创已于 2025-12-19 20:38:02 修改 · 1.5k 阅读

15 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#学习 #AIGC

于 2024-03-22 16:14:16 首次发布

大模型 & AIGC 专栏收录该内容

13 篇文章

订阅专栏

前言

一、SD系列：DDPM、DDIM、LDM（LDM原理 & Stable Duffision & DALL.E 1/2/3 & Sora）、DIT.

二、VAE

三、GAN

四、VAR

五、text-guided

一、扩散模型（DM）

1. DDPM

通过逆向预测噪声实现稳定优化。paper 论文详解
noise加噪（单步加噪 & 任意时刻t加噪）。

denoise去噪（逆向去噪需要逐步推理，可以理论推理x0，但效果不好）。

loss损失函数：最小化预测噪声与真实噪声的均方误差MSE。

2. DDIM

预测x₀和噪声。paper
noise加噪

denoise去噪：非马尔可夫链

跳步采样

loss：均基于噪声预测的均方误差MSE。

改进点
- 反向去噪（非马尔可夫）：DDPIM的去噪过程为非马尔可夫链，支持跳步采样，而马尔可夫链，严格逐步采样。
- 跳步采样：支持加速采样策略，DDPM需完整迭代所有时间步，计算成本高。
- 确定性生成路径：DDIM通过设定方差参数σt=0，将反向过程变为确定性映射，相同噪声输入始终生成相同输出，支持图像反演。随机性和可控性：方差参数σt平衡生成质量与多样性。

3. LDM

paper

模型结构：VAE、LDM(DDPM/DDIM采样，U-Net结构)、条件机制。
- VAE：将高维图像数据压缩到低维潜在空间，并实现重建；
- Latent Diffusion Models：DDPM/DDIM采样(U-Net结构)
- Conditioning Mechanisms：条件编码器，通过cross-attention向U-Net注入条件信息，多条件支持。(加噪过程不变，仅参与去噪过程)
- 损失函数：潜在空间扩散损失、自编码器损失（感知损失、重建损失、KL散度）和条件机制损失。

4. 产品

4.1. Stable Diffusion：是LDM的具体实现。

Stable Diffusion 1.x系列：将扩散过程从像素空间转移到潜在空间（VAE压缩）；引入CLIP文本编码器，提升文本-图像对齐能力；采用UNet噪声预测架构，支持条件生成。
Stable Diffusion 2.x系列：更高分辨率支持(1024×1024)；使用更深的UNet和更大的CLIP模型（如OpenCLIP），提升语义理解能力；多模态扩展，尝试融合非文本输入（如音频信号转换为图像），并引入深度估计和风格迁移功能。
Stable Diffusion 3.x系列：DIT架构代替原有的U-Net架构，提升多模态融合能力；支持超分辨率生成。

4.2. DALL.E

（1）DALL.E 1(dVAE、Transformer和CLIP三个模型都是不同阶段独立训练的)

训练：两阶段训练。Loss：dVAE重建损失(重构损失+KL散度) + Transformer自回归交叉熵损失
- Stage 1 dVAE：离散变分自编码器，通过encoder-decoder获得图像的离散潜在表示(类似VQ-VAE)；256x256图片压缩成32x32token。
- Stage 2 文图融合与生成：将文本描述与图像潜在表示结合，生成符合文本的新图像。
  - 文本编码BPE Encoder：256个文本token；
  - 文、图特征拼接Concatenate；
  - Transformer生成：基于拼接后序列，使用Transformer自回归生成新的图像潜在向量）；
  - 样本生成与排序；
  - Sample Generation：通过dVAE的Image Decoder将生成的潜在向量解码为图像；
  - Rerank using CLIP：用CLIP模型对生成结果排序，选择文本-图像对齐度最高的输出。
推理

（2）DALL.E 2 paper

模型结构：CLIP + prior (condition)+ img decoder(扩散模型)
训练：两阶段训练（CLIP训练 + prior&decoder训练）
- Stage 1：CLIP训练(虚线以上)，复用CLIP实现图文对齐，得到训练好的text encoder和img encoder。
- Stage 2
  - prior训练(虚线以下)：text-->CLIP-text_encoder-->zt; img->CLIP-image_encoder-->zi。希望prior从zt获取相对应的zi，假设zt-->prior-->zi′，通过KL散度约束zi′与zi越接近越好，来更新prior模块。将最终训练好的prior，将与CLIP-text_encoder串联起来，就输入的text生成对应的图像编码特征zi了（text-->CLIP-text_encoder-->zt-->prior-->zi′）。
  - 图像生成decoder训练：图像特征zi′(prior)当作condition注入，通过扩散模型解码(V1是AR解码)生成图像。
推理(prior&decoder推理：text-->zt-->zi'(condition)-->DM decoder-->image。

（3）DALL·E 3

DALL·E 3 基于 DALL·E 2 的架构改进，进行了文本编码器升级和扩散模型增强，增加image-caption模型对caption进行合成优化。

4.3 Sora

模型架构：VAE+LDM(DIT结构)+条件机制。paper
- 3d-VAE：输入为原始视频，输出为视频在时间和空间上经过压缩的潜在表示，并通过VQ-VAE转换成token表示。时空编码(3D卷积编码/压缩)、时空补丁化(B C T H W -> B (T H W) C)、矢量量化(VQ-VAE)、恢复时空结构(供DiT处理，B (T H W) C -> B T H W C)；
- DIT结构；
- 条件机制支持text、image、video；
- 视频插帧实现场景过渡。

5. DIT（应用：SD3、Sora）

模型结构：VAE、LDM(DDIM采样，Transformer替代U-Net）；条件注入机制（adaLN-Zero代替cross-attention）。paper
- VAE
- LDM：Transformer，基于VIT设计，通过自注意力机制实现全局建模，消除卷积的归纳偏差。
- adaLN-Zero：将时间步t和类别标签c编码为调制参数，动态调整LayerNorm的scale和shift，避免交叉注意力的计算开销。

二、VAE

VAE利用潜空间的正态分布特性建模，相较 GAN、其训练更为稳定，不易发生模式崩溃，但生成图像通常较为模糊，高频细节表现不佳。

编码器输出潜在变量的概率分布参数（均值μ和方差σ²），通过重参数化技巧采样潜在向量z，解码器基于z重构数据。潜在空间连续且可解释，支持生成新样本。Loss：重构损失+KL散度。

三、GAN

由生成器G和判别器D两个模型构成，稳定性较差、易发生模式崩溃，生成样本多样性不足。稳定性较差原因：

（1）GAN是需要训练2个模型，训练过程极其不稳定，有时候生成器训好了，判别器却没训好，以至于loss都不能真实的反映网络的性能。
（2）训练不同步性：G和D需要保持能力平衡，但实践中两者通常交替训练，容易出现一方"跑得太快"（如D通过少量迭代就能达到高准确率，而G需要更多步才能追赶）。若D训练不足，G会利用D的漏洞生成低多样性样本（模式崩溃）；若D训练过强，G可能陷入局部最优。
（3）对抗目标的本质冲突：G的目标是生成以假乱真的样本欺骗D，而D的目标是准确区分真假。这种零和博弈会导致当D过强时，G的梯度消失（D轻易识破生成样本，反馈给G的有效梯度趋近零），导致G无法更新；当G过强时，D的判别能力退化（生成样本与真实数据分布完全重叠），训练失去对抗意义。
（3）对超参敏感。

四、VAR

多尺度自回归图像生成模型，通过coarse-to-fine渐进式预测实现高效且高质量的图像生成。层级预测(“next-scale/resolution prediction”) —— 传统AR是逐token预测。尺度内并行：所有Token（图像块）并行生成，避免传统AR模型的序列依赖瓶颈；跨尺度自回归：当前尺度的Token作为条件，预测下一尺度的Token。