前言
一、SD系列:DDPM、DDIM、LDM(LDM原理 & Stable Duffision & DALL.E 1/2/3 & Sora)、DIT.
二、VAE
三、GAN
四、VAR
五、text-guided
一、扩散模型(DM)
1. DDPM



- denoise去噪(逆向去噪需要逐步推理,可以理论推理x0,但效果不好)。

- loss损失函数:最小化预测噪声与真实噪声的均方误差MSE。

2. DDIM

-
预测x₀和噪声。paper
- noise加噪

- denoise去噪:非马尔可夫链

- 跳步采样

- loss:均基于噪声预测的均方误差MSE。

- 改进点
- 反向去噪(非马尔可夫):DDPIM的去噪过程为非马尔可夫链,支持跳步采样,而马尔可夫链,严格逐步采样。
- 跳步采样:支持加速采样策略,DDPM需完整迭代所有时间步,计算成本高。
- 确定性生成路径:DDIM通过设定方差参数σt=0,将反向过程变为确定性映射,相同噪声输入始终生成相同输出,支持图像反演。随机性和可控性:方差参数σt平衡生成质量与多样性。
3. LDM

- 模型结构:VAE、LDM(DDPM/DDIM采样,U-Net结构)、条件机制。
- VAE:将高维图像数据压缩到低维潜在空间,并实现重建;
- Latent Diffusion Models:DDPM/DDIM采样(U-Net结构)
- Conditioning Mechanisms:条件编码器,通过cross-attention向U-Net注入条件信息,多条件支持。(加噪过程不变,仅参与去噪过程)
- 损失函数:潜在空间扩散损失、自编码器损失(感知损失、重建损失、KL散度)和条件机制损失。
4. 产品
4.1. Stable Diffusion:是LDM的具体实现。
- Stable Diffusion 1.x系列:将扩散过程从像素空间转移到潜在空间(VAE压缩);引入CLIP文本编码器,提升文本-图像对齐能力;采用UNet噪声预测架构,支持条件生成。
- Stable Diffusion 2.x系列:更高分辨率支持(1024×1024);使用更深的UNet和更大的CLIP模型(如OpenCLIP),提升语义理解能力;多模态扩展,尝试融合非文本输入(如音频信号转换为图像),并引入深度估计和风格迁移功能。
- Stable Diffusion 3.x系列:DIT架构代替原有的U-Net架构,提升多模态融合能力;支持超分辨率生成。
4.2. DALL.E
(1)DALL.E 1(dVAE、Transformer和CLIP三个模型都是不同阶段独立训练的)

- 训练:两阶段训练。Loss:dVAE重建损失(重构损失+KL散度) + Transformer自回归交叉熵损失
- Stage 1 dVAE:离散变分自编码器,通过encoder-decoder获得图像的离散潜在表示(类似VQ-VAE);256x256图片压缩成32x32token。
- Stage 2 文图融合与生成:将文本描述与图像潜在表示结合,生成符合文本的新图像。
- 文本编码BPE Encoder:256个文本token;
- 文、图特征拼接Concatenate;
- Transformer生成:基于拼接后序列,使用Transformer自回归生成新的图像潜在向量);
- 样本生成与排序;
- Sample Generation:通过dVAE的Image Decoder将生成的潜在向量解码为图像;
- Rerank using CLIP:用CLIP模型对生成结果排序,选择文本-图像对齐度最高的输出。
- 推理

(2)DALL.E 2 paper

- 模型结构:CLIP + prior (condition)+ img decoder(扩散模型)
- 训练:两阶段训练(CLIP训练 + prior&decoder训练)
- Stage 1:CLIP训练(虚线以上),复用CLIP实现图文对齐,得到训练好的text encoder和img encoder。
- Stage 2
- prior训练(虚线以下):text-->CLIP-text_encoder-->zt; img->CLIP-image_encoder-->zi。希望prior从zt获取相对应的zi,假设zt-->prior-->zi′,通过KL散度约束zi′与zi越接近越好,来更新prior模块。将最终训练好的prior,将与CLIP-text_encoder串联起来,就输入的text生成对应的图像编码特征zi了(text-->CLIP-text_encoder-->zt-->prior-->zi′)。
- 图像生成decoder训练:图像特征zi′(prior)当作condition注入,通过扩散模型解码(V1是AR解码)生成图像。
- 推理(prior&decoder推理:text-->zt-->zi'(condition)-->DM decoder-->image。

(3)DALL·E 3
DALL·E 3 基于 DALL·E 2 的架构改进,进行了文本编码器升级和扩散模型增强,增加image-caption模型对caption进行合成优化。
4.3 Sora


- 模型架构:VAE+LDM(DIT结构)+条件机制。paper
- 3d-VAE:输入为原始视频,输出为视频在时间和空间上经过压缩的潜在表示,并通过VQ-VAE转换成token表示。时空编码(3D卷积编码/压缩)、时空补丁化(B C T H W -> B (T H W) C)、矢量量化(VQ-VAE)、恢复时空结构(供DiT处理,B (T H W) C -> B T H W C);
- DIT结构;
- 条件机制支持text、image、video;
- 视频插帧实现场景过渡。
5. DIT(应用:SD3、Sora)

- 模型结构:VAE、LDM(DDIM采样,Transformer替代U-Net);条件注入机制(adaLN-Zero代替cross-attention)。paper
- VAE
- LDM:Transformer,基于VIT设计,通过自注意力机制实现全局建模,消除卷积的归纳偏差。
- adaLN-Zero:将时间步t和类别标签c编码为调制参数,动态调整LayerNorm的scale和shift,避免交叉注意力的计算开销。

二、VAE
VAE利用潜空间的正态分布特性建模,相较 GAN、其训练更为稳定,不易发生模式崩溃,但生成图像通常较为模糊,高频细节表现不佳。
编码器输出潜在变量的概率分布参数(均值μ和方差σ²),通过重参数化技巧采样潜在向量z,解码器基于z重构数据。潜在空间连续且可解释,支持生成新样本。Loss:重构损失+KL散度。
三、GAN
由生成器G和判别器D两个模型构成,稳定性较差、易发生模式崩溃,生成样本多样性不足。稳定性较差原因:
- (1)GAN是需要训练2个模型,训练过程极其不稳定,有时候生成器训好了,判别器却没训好,以至于loss都不能真实的反映网络的性能。
- (2)训练不同步性:G和D需要保持能力平衡,但实践中两者通常交替训练,容易出现一方"跑得太快"(如D通过少量迭代就能达到高准确率,而G需要更多步才能追赶)。若D训练不足,G会利用D的漏洞生成低多样性样本(模式崩溃);若D训练过强,G可能陷入局部最优。
- (3)对抗目标的本质冲突:G的目标是生成以假乱真的样本欺骗D,而D的目标是准确区分真假。这种零和博弈会导致当D过强时,G的梯度消失(D轻易识破生成样本,反馈给G的有效梯度趋近零),导致G无法更新;当G过强时,D的判别能力退化(生成样本与真实数据分布完全重叠),训练失去对抗意义。
- (3)对超参敏感。
四、VAR

多尺度自回归图像生成模型,通过coarse-to-fine渐进式预测实现高效且高质量的图像生成。层级预测(“next-scale/resolution prediction”) —— 传统AR是逐token预测。尺度内并行:所有Token(图像块)并行生成,避免传统AR模型的序列依赖瓶颈;跨尺度自回归:当前尺度的Token作为条件,预测下一尺度的Token。
- 模型结构
- 多尺度VQVAE:将图像压缩为离散的层级式Token序列,支持多尺度重建;
- 自回归Transformer:给定尺度rk−1的Token,预测尺度rk的Token分布;
- 分层交叉熵损失。
五、Text-Guided
略。
——AIGC系列&spm=1001.2101.3001.5002&articleId=136932804&d=1&t=3&u=392568b4f645460aa9b9ad26727e152e)
2754

被折叠的 条评论
为什么被折叠?



