重磅更新AIGC数字人系列!今天为大家带来ANIMATEDIFF的深度解析。作为AI视频生成技术的先驱之作,这个模型相比其他AIGC视频生成方案更加简洁易懂。建议在掌握DDPM和Stable Diffusion原理后,循序渐进地学习这个经典模型。
1. 前言/动机
1.1 问题
为已有的高质量个性化的模型添加运动动态,使其生成动画(gif动图)
描述:
随着文本到图像(T2I)扩散模型(如 Stable Diffusion)以及相应个性化技术(如 DreamBooth 和 LoRA)的发展,每个人都可以以较低的成本将自己的想象转化为高质量的图像。然而,为已有的高质量个性化 T2I 模型添加运动动态,并使其能够生成动画,仍然是一个尚未解决的挑战
解决方案:
设计了一个即插即用的运动模块(motion module),可以集成到任何相同基础的T2I模型
优点:
即插即用, 一旦训练完成,该模块便可插入到任意个性化 T2I 模型中,从而构成一个个性化动画生成器。
创新点:
- 提出AnimateDiff ——一个实用的框架,能够无需对模型进行特定微调,就为个性化的 T2I 模型赋予动画能力。 核心就是运动模块(motion module)
- 提出MotionLoRA ——一种轻量级微调技术,用于帮助 AnimateDiff 的预训练运动模块适应新的运动模式(如不同的镜头类型),且训练成本和数据收集成本较低
motion module可以从视频数据集中学习合理的运动先验
训练包含三个阶段:
- 领域适配器微调:首先在基础 T2I 模型上微调一个“领域适配器”,使其视觉风格与目标视频数据集对齐。这一预处理步骤确保运动模块更专注于学习运动先验,而不是从训练视频中学习像素级细节。
- 运动建模阶段:将基础 T2I 与领域适配器一起“扩展”成时序形式,并引入一个新初始化的运动模块。在保持领域适配器和基础模型权重不变的情况下,仅优化运动模块,使其能够学习具有泛化能力的运动先验。通过模块插入,该模块能够赋能其它个性化 T2I 模型,实现其在各自个性化风格下生成流畅、自然的动画。
- MotionLoRA 微调:这一阶段旨在将预训练的运动模块适配到特定运动模式(如不同镜头风格)。文章使用 LoRA(Low-Rank Adaptation)进行轻量级微调,仅需大约 50 个参考视频和少量训练轮次。MotionLoRA 模型所需的额外存储空间大约只有 30MB,非常适合模型的快速分享。对于无法负担预训练成本但希望针对特效微调的用户来说,这是一个非常实用的方案。
目标:在不对模型进行特定微调的前提下,直接将已有的高质量个性化 T2I 模型转变为动画生成器。因为这种微调往往对普通用户来说,在算力和数据收集上是难以负担的。
- 项目地址:https://animatediff.github.io/
- github地址:


4574

被折叠的 条评论
为什么被折叠?



