ANIMATEDIFF: 无需特定微调，实现个性化文本到图像扩散模型的动画化

原创

已于 2025-07-02 10:24:53 修改 · 4.6k 阅读

标签

#人工智能 #AIGC #视频 #深度学习 #python

于 2025-05-27 16:13:07 首次发布

开发板推荐：天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

点击查看

重磅更新AIGC数字人系列！今天为大家带来ANIMATEDIFF的深度解析。作为AI视频生成技术的先驱之作，这个模型相比其他AIGC视频生成方案更加简洁易懂。建议在掌握DDPM和Stable Diffusion原理后，循序渐进地学习这个经典模型。

1. 前言/动机

1.1 问题

为已有的高质量个性化的模型添加运动动态，使其生成动画（gif动图）
描述：
随着文本到图像（T2I）扩散模型（如 Stable Diffusion）以及相应个性化技术（如 DreamBooth 和 LoRA）的发展，每个人都可以以较低的成本将自己的想象转化为高质量的图像。然而，为已有的高质量个性化 T2I 模型添加运动动态，并使其能够生成动画，仍然是一个尚未解决的挑战
解决方案：
设计了一个即插即用的运动模块（motion module），可以集成到任何相同基础的T2I模型
优点：
即插即用，一旦训练完成，该模块便可插入到任意个性化 T2I 模型中，从而构成一个个性化动画生成器。
创新点：

提出AnimateDiff ——一个实用的框架，能够无需对模型进行特定微调，就为个性化的 T2I 模型赋予动画能力。核心就是运动模块（motion module）
提出MotionLoRA ——一种轻量级微调技术，用于帮助 AnimateDiff 的预训练运动模块适应新的运动模式（如不同的镜头类型），且训练成本和数据收集成本较低
motion module可以从视频数据集中学习合理的运动先验

训练包含三个阶段：

领域适配器微调：首先在基础 T2I 模型上微调一个“领域适配器”，使其视觉风格与目标视频数据集对齐。这一预处理步骤确保运动模块更专注于学习运动先验，而不是从训练视频中学习像素级细节。
运动建模阶段：将基础 T2I 与领域适配器一起“扩展”成时序形式，并引入一个新初始化的运动模块。在保持领域适配器和基础模型权重不变的情况下，仅优化运动模块，使其能够学习具有泛化能力的运动先验。通过模块插入，该模块能够赋能其它个性化 T2I 模型，实现其在各自个性化风格下生成流畅、自然的动画。
MotionLoRA 微调：这一阶段旨在将预训练的运动模块适配到特定运动模式（如不同镜头风格）。文章使用 LoRA（Low-Rank Adaptation）进行轻量级微调，仅需大约 50 个参考视频和少量训练轮次。MotionLoRA 模型所需的额外存储空间大约只有 30MB，非常适合模型的快速分享。对于无法负担预训练成本但希望针对特效微调的用户来说，这是一个非常实用的方案。

目标：在不对模型进行特定微调的前提下，直接将已有的高质量个性化 T2I 模型转变为动画生成器。因为这种微调往往对普通用户来说，在算力和数据收集上是难以负担的。